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AVANT-PROPOS 


Cet ouvrage s'inspire des cours de statistique mathématique professés 
durant de longues années par l’auteur aux élèves de troisième année de la 
faculté de mathématiques de l’université de Novossibirsk. L'auteur a modi- 
fié le contenu à plusieurs reprises en quête de la version qui soit la plus élé- 
gante, la plus accessible et à jour. Plusieurs variantes ont été essayées, à 
commencer par l’exposition, sous forme de recettes, des principaux types de 
problèmes (construction des estimateurs et des tests et étude de leurs pro- 
priétés) pour finir par un cours de théorie générale des jeux dans lequel la 
théorie des estimateurs et le test d’hypothèses ont été présentés comme des 
cas particuliers d’une même approche. Le manque de temps (un semestre) 
n’a pas permis de regrouper ces deux variantes qui se complètent malgré 
leurs imperfections évidentes. Dans le premier cas, certains faits concrets 
ont entravé le développement d’une vision globale de la matière étudiée. La 
deuxième variante pour sa part comportait peu de résultats concrets simples 
et beaucoup de notions nouvelles difficiles à l’assimilation. En tout état de 
cause le juste milieu serait un exposé des éléments de la théorie de l’estima- 
tion et de test d’hypothèses combiné à la recherche systématique des procé- 
dures optimales. 

L'objectif principal de cet ouvrage est d’exposer la réalité actuelle de la 
statistique mathématique sous la forme la plus accessible et la plus cohé- 
rente qui soit. 

Cet ouvrage se compose de 5 chapitres et d’Annexes. 

Le chapitre 1 traite des propriétés (essentiellement asymptotiques) des 
distributions empiriques, qui sont à la base de la statistique mathématique. 

Les chapitres 2 et 3 développent respectivement la théorie des estima- 
teurs et la théorie de test d’hypothèses statistiques. Les premières parties de 
chacun de ces chapitres sont consacrées à la description des éventuelles 
méthodes de résolution des problèmes posés et à la recherche des procédures 
optimales, les deuxièmes, à la construction des procédures asymptotique- 
ment normales. 

Le chapitre 5 qui expose la théorie des jeux dans les problèmes de statis- 
tique mathématique présente la même structure. 
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Le chapitre 4 étudie les problèmes relatifs à deux échantillons et plus. 

Cet ouvrage comporte aussi 8 Annexes qui donnent les démonstrations 
de théorèmes, qui sortent du cadre de l’exposé principal par leur nature ou 
par leur complexité. 

Les remarques bibliographiques qui sont loin d’être exhaustives permet- 
tent néanmoins de se faire une idée de l’émergence et de l’évolution des prin- 
cipaux domaines de la statistique mathématique. Les références renvoient 
de préférence aux monographies (car plus accessibles) qu’aux articles. 

Parmi les nombreux ouvrages de statistique mathématique, nous en dis- 
tinguerons quatre tant ils nous semblent complets et répondre à l’esprit 
actuel de cette matière : il s’agit des livres de H. Cramer {19}, E. Lehmann 
[50], Sh. Zaks [91] et I. Ibraguimov & R. Khasminsky [42]. L’exposé de cet 
ouvrage a été le plus influencé par [42] (dont certaines idées sont utilisées 
dans les $$ 23, 24, 25, 27, 28, 29 du chapitre 2) et par [50]. Le reste est peu 


lié à la structure des ouvrages existants. _ 
D’innombrables autres ouvrages ont fortement marqué la statistique 


mathématique (notamment ceux de D. Blackwell et Girshik [7], M. Kendall 
et A. Stuard [43], T. Ferguson [27], C. Rao [68], etc. Qu’on nous pardonne 
de ne pouvoir les citer tous) mais ils se distinguent fondamentalement de 
cette monographie tant par leur esprit que par leur contenu. 

En plus des résultats et méthodes classiques, cet ouvrage propose des 
rubriques nouvelles qui facilitent l’exposé, des améliorations méthodologi- 
ques ainsi que des résultats nouveaux et des résultats publiés pour la pre- 
mière fois dans une monographie. 

Voici brièvement décrits les grands traits de cet ouvrage. 

Dans les $$ 1 et 2 du chapitre 1 on introduit les notions d’échantillon, 
de distribution empirique et on établit le théorème de Glivenko-Cantelli qui 
peut être considéré comme un fait fondamental sur lequel reposent les infé- 
rences statistiques. 

Dans le $ 3 on étudie deux types de statistiques qui englobent l’écrasante 
majorité des statistiques pratiquement intéressantes. Ces statistiques sont 
définies comme les valeurs G(P;) de fonctionnelles G (satisfaisant certaines 
conditions) dépendant d’une distribution empirique P,. On démontre plus 
loin ($$ 7 et 8) les théorèmes limites relatifs à la distribution de ces statisti- 
ques. Ceci allège la suite de l’exposé et nous libère de la nécessité de repro- 
duire pour chaque statistique pratiquement les mêmes raisonnements, des 
raisonnements qui de surcroît sont sans rapport avec le fond du problème. 

Le $ S regroupe des théorèmes auxiliaires (appelés ici « théorèmes. de 
continuité ») sur la convergence des distributions et de leurs moments. Ceci 
allège aussi la suite de l’exposé. 

Dans le $ 6 (que l’on peut omettre en première lecture) on montre que 
la fonction empirique de répartition F,(f) est un processus poissonnien con- 
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ditionnel et on énonce le théorème de convergence du processus Vn(F;(t) — 
— F(t)) vers un pont brownien (la démonstration de ce théorème est donnée 
dans l’Annexe I). 

Dans le $ 10 on introduit les distributions empiriques lissées qui permet- 
tent d'approcher non seulement une distribution mais aussi sa densité. 

Dans le $ 3 du chapitre 2 qui est consacré aux estimateurs de paramètres 
inconnus, on développe une approche unique de construction des estima- 
teurs appelée « méthode de substitution ». Cette méthode nous suggère de 
chercher un estimateur 8° du paramètre 8, représenté par une fonctionnelle 
0 = G(P) dépendant de la distribution P de l’échantillon, sous la forme 
0" = G(P;), où P; est une distribution empirique. Tous les estimateurs 
« raisonnables » utilisés dans la pratique sont des estimateurs de substitu- 
tion. L’optimalité d’un estimateur est atteinte par un choix convenable de 
la fonctionnelle G. Si une statistique 9” = G(P;) est une statistique de type 
I ou Il, les théorèmes du chapitre 1 nous permettent d'établir immédiate- 
ment la convergence et la normalité asymptotique de cet estimateur. Dans 
les $$ 4 et 5, cette approche est illustrée sur des estimateurs de la méthode 
des moments et de la méthode du minimum de la distance. On aurait pu 
envisager les estimateurs du maximum de vraisemblance du même point de 
vue ($ 6), mais leur étude directe permet d'établir des résultats plus profonds 
indispensables pour la suite. 

Dans le chapitre 2 on développe deux approches pour la comparaison 
des estimateurs : l'approche de la moyenne quadratique (on compare E,(8° — 
— 6)?) et l'approche asymptotique (on compare les variances de la distribu- 
tion limite de Vn(9° — 6) dans la classe des estimateurs asymptotiquement 
normaux). Dans le cas paramétrique ceci permet de distinguer 3 types 
d’estimateurs optimaux : les estimateurs efficaces dans les classes X% de 
biais fixe, les estimateurs bayésiens et les estimateurs minimax. On utilise 
les mêmes principes pour dégager les classes des estimateurs asymptotique- 
ment optimaux dans l’approche asymptotique. Les estimateurs efficaces 
sont construits à l’aide des méthodes traditionnelles suivantes : la première 
est qualitative et s’appuie sur le principe d’exhaustivité ($$ 12, 13 et 14) ; la 
deuxième est basée sur des relations qualitatives découlant de l’inégalité de 
Rao-Cramer ($ 16) ; la troisième repose sur des considérations d’invariance 
($$ 17 et 19) qui permettent de restreindre les classes d’estimateurs envisa- 
gées. La recherche des estimateurs asymptotiquement optimaux et l'étude 
des propriétés asymptotiques de la fonction de vraisemblance font l’objet 
des $$ 20 à 30. Le $ 20 contient une inégalité intégrale de type Rao-Cramer 
qui permet, en particulier, d'établir des critères simples pour qu’un estima- 
teur soit asymptotiquement bayésien et minimax et de justifier le choix de 
la sous-classe Ko à laquelle il faut limiter la recherche des estimateurs 
asymptotiquement efficaces. Ceci permet d’établir immédiatement par une 
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étude des propriétés asymptotiques des estimateurs du maximum de vrai- 
semblance ($ 25) que ces estimateurs sont asymptotiquement bayésiens et 
minimax et asymptotiquement efficaces dans Ko. Les $$ 21 à 24 sont acces- 
soires. L’estimation par intervalles est traitée dans les $$ 31 et 32 et dans le 
$ 8 du chapitre 3. 

Le chapitre 3 est consacré au test d’hypothèses. Les $$ 1 et 2 traitent le 
cas d’un nombre fini d’hypothèses simples. On distingue (comme dans la 
théorie de l'estimation) trois types de tests optimaux : les tests les plus puis- 
sants dans des sous-classes, les tests bayésiens et les tests minimax. On éta- 
blit les liens existant entre ces tests et on les détermine sous forme explicite. 
On se base sur le principe de Bayes (et non pas sur le lemme de Neyman- 
Pearson) ce qui à notre sens simplifie l’exposé et le rend plus limpide. Dans 
le $ 3 on développe les approches asymptotiques de calcul des tests de deux 
hypothèses simples et on les compare. Dans le $ 4 on considère la position 
générale du problème de test de deux hypothèses composées et l’on définit 
les classes de tests optimaux (uniformément les plus puissants, bayésiens et 
minimax). Le $ 5 est consacré à la recherche des tests uniformément les plus 
puissants dans les cas où cela est possible. Dans les $$ 6 et 7, on se penche 
sur le même problème mais dans des classes de tests restreintes pour des raïi- 
sons d’invariance et d’absence de biais. Comme dans les $$ 1 et 2, cette 
étude est conduite du point de vue bayésien. Dans le $ 8, les résultats acquis 
sont appliqués à la construction des régions de confiance les plus exactes. 
Dans le $ 9 on étudie les tests bayésiens et les tests minimax. Les $$ 10 et 
13 traitent du test du rapport de vraisemblance. Ce test est uniformément 
le plus puissant dans de nombreux cas particuliers et est asymptotiquement 
bayésien sous des conditions assez larges. Dans les $$ 15, 16 et 17 on pour- 
suit l'étude des propriétés d’optimalité asymptotique du test du rapport de 
vraisemblance. Le $ 11 établit l’optimalité de ce test dans les problèmes 
d’analyse de variance. Les $ 14 et 15 sont consacrés à la recherche de tests 
asymptotiquement optimaux d’hypothèses proches et à leur détermination 
sous forme explicite pour les principaux problèmes de statistique. 

Les trois premiers chapitres ont pour caractéristique essentielle de ne 
traiter que des problèmes de statistique portant sur un seui échantillon. 

Le chapitre 4, comme déjà signalé, est consacré aux problèmes faisant 
intervenir deux échantillons et plus, notamment les problèmes d’homogé- 
néité (totale ou partielle, $$ 1 et 2), problèmes de régression ($ 3) et les pro- 
blèmes d’analyse de variance ($ 4). Les résultats du chapitre 3 sont appliqués 
aux problèmes d’homogénéité dans le cas paramétrique pour construire des 
tests asymptotiquement optimaux sous la condition que les hypothèses 
alternatives soient proches de l’hypothèse de base d’homogénéité. Les résul- 
tats des chapitres 2 et 3 sont utilisés dans les problèmes de régression (aussi 
bien de régression linéaire que de régression en des fonctions arbitraires) 
pour construire des estimateurs efficaces pour les paramètres inconnus et 
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des tests pour éprouver les hypothèses de base. On étudie également des 
problèmes d’analyse discriminante. 

Le chapitre 5 traite de l’application de la théorie des jeux à la résolution 
de problèmes de statistique mathématique. Ce chapitre contribue à élaborer 
une vision globale de la statistique mathématique et permet de généraliser 
de nombreux résultats des chapitres 2 et 3. Dans le $ 2 on développe les 
notions fondamentales et les résultats de la théorie des jeux « ordinaire » 
(on ne considère que les jeux à deux personnes). On établit en particulier 
des liens entre les principaux types de stratégies optimales : les stratégies 
bayésiennes, minimax et uniformément les meilleures dans des sous-classes. 
Dans le $ 3 on étudie les jeux statistiques. Dans le $ 4, on énonce et on 
prouve le principe de Bayes qui permet de ramener Îa recherche d’une déci- 
sion bayésienne à un problème plus simple de construction d’une stratégie 
bayésienne pour un jeu ordinaire à deux joueurs. Dans le $ 5, on discute 
les principes d’exhaustivité, d'absence de biais et d’invariance pour la cons- 
truction des décisions uniformément les meilleures dans les sous-classes 
correspondantes. Les $$ 6, 7 et 8 sont consacrés à la recherche de décisions 
asymptotiquement optimales. Dans le $ 6 on se penche sur les estimateurs 
asymptotiquement optimaux des paramètres pour une fonction de perte 
quelconque (et pas seulement quadratique). On réussit dans ce cas à établir 
des résultats proches de ceux du chapitre 2 sur l’optimalité asymptotique des 
estimateurs du maximum de vraisemblance. Dans les $$ 7 et 8 on traite les 
tests asymptotiquement optimaux pour une fonction de perte quelconque. 
Dans le $ 7, on prouve que le test du rapport de vraisemblance est asympto- 
tiquement bayésien ; dans le $ 8, on établit le critère limite d’optimalité des 
tests d’hypothèses voisines (généralisation des résultats des $$ 14, 15 du cha- 
pitre 3 au cas d’une fonction de perte quelconque). 

De toutes les Annexes on distinguera l’Annexe VIII dans laquelle sont 
prouvés deux théorèmes fondamentaux de la théorie des jeux statistiques, 
dont la lecture nécessite des connaissances mathématiques poussées. 

Cet ouvrage se fixe de multiples objectifs. Certes par son contenu il est 
plus proche du niveau de la maîtrise, mais les mesures prises pour en facili- 
ter la première lecture le mettent à la portée des étudiants. Les paragraphes 
« ultra-compliqués » ou « plus avancés », qui sont signalés par un astéris- 
que, doivent être sautés en première lecture au même titre d’ailleurs que les 
passages en petits caractères. D’autre part les cas techniquement plus com- 
pliqués portant sur un paramètre vectoriel sont presque partout traités dans 
des rubriques et des paragraphes à part sur lesquels on peut aussi glisser. 

Les professeurs qui ont une connaissance partielle de cette matière peu- 
vent sélectionner un ensemble de paragraphes pour concocter un cours de 
statistique mathématique étalé sur un semestre. Entre autres variantes nous 
leur conseillons les $$ 1, 3 et 5 du chapitre 1 ; les $$ 2, 3, 4, 6 à 12, 14, 16 
(21, 23, 24, 25), 31 et 32 du chapitre 2 et les $$ 1, 2, 4, 5, 12 (13, 16) du chapi- 
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tre 3. Les paragraphes placés.entre parenthèses sont consacrés aux procédu- 
res asymptotiquement optimales. On peut les alléger au maximum ou tout 
simplement les omettre en fonction du niveau de préparation des étudiants. 

La lecture de cet ouvrage suppose connus les éléments fondamentaux de 
la théorie des probabilités tels qu’ils sont présentés dans le manuel [11] du 
même auteur. Au contraire des autres, les références à cet ouvrage apparais- 
sent dans les passages qui sont supposés être connus du lecteur, et essentiel- 
lement à titre de rappel. 

Les paragraphes, théorèmes, lemmes, exemples, etc., sont numérotés de 
façon autonome. Pour faciliter la lecture, on se refère à un théorème ou 
autre de façon différente selon la place qu’il occupe par rapport au passage 
étudié. Ainsi 

cf. théorème 1 ou formule (12) = théorème 1 ou formule (12) du para- 
graphe étudié ; 

cf. théorème 13.1 ou formule (13.12) = théorème 1 du $ 13 ou formule 
(12) du $ 13 du chapitre étudié ; 

cf. théorème 2.13.1 ou formule (2.13.12) = théorème 1 $ 13 chapitre 2 
ou formule (12) 8 13 chapitre 2. | 

Idem pour les paragraphes : 

cf. $ 13 renvoie au $ 13 du chapitre étudié ; 

cf. $ 2.13 renvoie au $ 13 du chapitre 2. 

Le signe € marque la fin d’une démonstration. 

La composition de cet ouvrage s’est faite en plusieurs étapes assez labo- 
rieuses et doit à beaucoup de personnes : 

à I. Borissov qui a apporté une aide inappréciable à la préparation et 
la correction du manuscrit ; 

à K. Borovkov qui m’a prodigué des conseils utiles et dont les remarques 
ont contribué à « purifier » le texte final ; 

à A. Sakhanenko qui a bien voulu lire le manuscrit à ma demande et 
dont les suggestions ont été utilisées notamment dans les démonstrations 
des $$ 16, 21, 23, 29 du chapitre 2, les $$ 13 à 15 du chapitre 3, les Annexes 
Il, V et VIII (voir également la notice bibliographique) ; 

à D. Tchibissov dont les remarques précieuses ont contribué à améliorer 
le contenu ; 

à V. Yourinski et A. Novikov qui ont lu le manuscrit et dont les sugges- 
tions m'ont été d’une grande utilité. 

A ces personnes et à toutes celles qui m'ont apporté leur aide sous quel- 
que forme que ce soit je voudrais exprimer ici ma profonde et sincère 
gratitude. 

A. Borovkov 
Décembre 1985 


INTRODUCTION 


Cet ouvrage expose les fondements de la statistique mathématique appe- 
lée parfois tout simplement sfatistique. Mais cette abréviation ne doit pas 
prêter à équivoque dans la mesure où le terme de statistique recouvre géné- 
ralement un autre sens. 

Qu'est-ce que la statistique mathématique ? I] existe plusieurs défini- 
tions descriptives qui reflètent à des degrés différents le contenu de cette dis- 
cipline mathématique. L'une des plus simples et des plus vagues repose sur 
une comparaison liée à la notion d’échantillon d’une population générale 
et au problème de 1a distribution hypergéométrique qui est généralement 
traitée au début de tout cours de théorie des probabilités. Ce problème 
direct de la théorie des probabilités consiste à étudier 1a distribution de la 
composition d’un échantillon aléatoire au vu de la composition de la popu- 
lation générale Mais le problème inverse qui consiste à reconstruire la 
population générale au vu d’un échantillon se pose fréquemment. Ce sont 
précisément ces problèmes qui font à proprement parier l’objet de la statsti- 
que mathématique. 

Précisons cette comparaison : en théorie des probabilités on connaït la 
nature d’un phénomène et on cherche à comprendre le comportement (la 
distribution) des caractéristiques observées dans des expériences. En statis- 
tique mathématique, c'est l’inverse : on part des données expérimentales 
(généralement des observations des variables aléatoires) et on demande 
d'émettre un jugement ou de prendre une décision sur la nature du phéno- 
mène étudié. Nous touchons ainsi à l’une des plus importantes sphères de 
l'activité humaine : la connaissance. L'idée que le « critère de la vérité est 
la pratique » trouve sa pleine justification en statistique mathématique dans 
la mesure où cette science précisément étudie les méthodes (dans le cadre 
de modèles mathématiques exacts) qui nous permettent de dire si les résultats 
de l'expérience confirment ou infirment l’hypothèse avancée sur la nature 
du phénomène. 

Fait important, comme en théorie des probabilités, on s’intéresse non 
pas aux expériences à issues déterministes, mais aux expériences donnant 
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lieu à des événements aléatoires. Le rôle de ces problèmes ne cesse de 
s’amplifier avec les progrès de la science, car avec l’accroissement de la préci- 
sion des expériences il devient de plus en plus difficile d'éviter le « facteur 
aléatoire » dù à toute sorte de perturbations et aux possibilités restreintes 
des instruments de mesure et de calcul. 

La statistique mathématique est une partie de la théorie des probabilités 
en ce sens que chaque problème de la première est en fait un problème (par- 
fois assez original) de la seconde. Mais la statistique mathématique est aussi 
une science autonome qui peut être considérée comme une science sur le 
comportement inductif de l’homme (et pas seulement de l’homme) lorsqu'il 
doit sur la base de son expérience non déterministe prendre des décisions 
avec des pertes minimales *). 

La statistique mathématique s'appelle aussi théorie des décisions statis- 
tiques, puisqu'on peut la caractériser comme la science des décisions opti- 
males (ces deux termes sont à préciser) basées sur des données statistiques 
(empiriques). Les positions exactes des problèmes seront données dans le 
texte de cet ouvrage. Nous nous bornerons ici à trois exemples de problèmes 
de statistique les plus simples et les plus typiques. 

EXEMPLE 1. L'un des principaux paramètres caractérisant la qualité 
d’un article est la durée de service. Mais cette durée est en principe aléatoire 
et impossible à déterminer à l’avance. L'expérience montre que si le proces- 
sus de production est dans un certain sens homogène, les durées de service 
£1, 2, ... respectivement du l-ier, 2-ième, etc. article peuvent être traitées 
comme des variables aléatoires indépendantes équidistribuées. Il est alors 
naturel d’identifier le paramètre durée de service au nombre 8 = Eë;. Un 
problème classique consiste à déterminer la valeur de 8. Pour ce faire, on 
prend n articles et on les contrôle. Soient x1, x1, . . ., x, les durées de services 
des articles contrôlés. On sait que 


122% + 0 lorsque n —+ co. 


=] 


Li 
Il est intuitif que le nombre x = _ > % soit proche de 8 pour ñn assez 
is 
grand et permette dans une certaine mesure de répondre à la question posée. 
Ceci étant, il est évident que le nombre d'observations n doit être le plus 


°) Pour plus de détails voir [59]. 
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petit possible et l’estimation de 8 la meilleure possible (une valeur trop forte 
ou trop faible du paramètre 9 conduirait à des pertes matérielles). 

EXEMPLE 2. Un radar sonde une partie de l’espace aux instants f1, {2, … 
.., ln afin de détecter un certain objet. Désignons par x1, . . ., x, les valeurs 
des signaux réfléchis captés par le radar. Si l’objet cherché ne se trouve pas 
dans cette partie de l’espace, les valeurs x; peuvent être traitées comme des 
variables aléatoires indépendantes distribuées comme une variable aléatoire 
£ dont la nature dépend du caractère des diverses perturbations. Si tout au 
long des observations l’objet se trouve dans le champ de vision, les x; con- 
tiendront le signal « utile » a avec les perturbations et seront alors distri- 
buées comme £ + a. Donc, si dans le premier cas la fonction de répartition 
des observations x; était F(x), dans le second elle sera de la forme F(x — 
— a). On demande de dire au vu des observations x1, ..., x, si l’objet se 
trouve ou non dans la zone scrutée. 

Dans ce problème il apparaît possible d’indiquer dans un certain sens 
la « règle de décision optimale » qui donnera la solution du problème avec 
des erreurs minimales. Ce problème peut être compliqué de la manière sui- 
vante. L'objet n'apparaît dans la zone visée qu’à partir d’une observation de 
numéro inconnu 9. On demande de déterminer avec le plus de précision 
l'instant 0 d’apparition de l’objet. Ceci est le « problème de panne » qui 
admet une foule d’interprétations importantes dans les applications. 

EXEMPLE 3. Une expérience est effectuée d’abord n. fois dans des con- 
ditions A et ensuite > fois dans des conditions B. Soient x1, ..., Xn, et 
Yi, «+ Yn, les résultats de ces expériences respectivement dans les condi- 
tions A et B. On demande de dire si le changement de conditions se réper- 
cute sur les résultats. En d’autres termes, si l’on désigne par P, la distribu- 
tion de x;, 1 < 4 < m1, et par P2, la distribution de y;, 1 < à < "2, le pro- 
blème consiste à dire si la relation P4 = P est remplie ou non. 

Si par exemple l’on étudie l'influence d’un produit sur la croissance, 
disons, de plantes ou d’animaux, on procède à deux séries d’expériences 
parallèles (avec et sans le produit) et l’on compare les résultats obtenus. 

On est souvent confronté à des problèmes plus compliqués où la même 
question est posée pour plusieurs séries d'observations réalisées dans des 
conditions différentes. Si les résultats des observations dépendent des con- 
ditions, il est nécessaire de vérifier le caractère de cette dépendance (ceci est 
le problème de regression). 

L'exemple 3 et les problèmes plus compliqués cités font partie de la 
classe des problèmes à deux échantillons et plus. De tels problèmes seront 
envisagés dans le chapitre 4. 

On pourrait prolonger la liste des exemples de problèmes typiques de 
statistique, problèmes qui diffèrent autant par leur contenu que par leur 
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complexité. Mais ces problèmes ont en commun les deux aspects suivants : 

1. Les distributions des résultats des observations sont inconnues. 

2. Dans chacun de ces problèmes, il faut prendre au vu des résultats des 
observations une décision sur la distribution de ces observations (d’où le 
nom de « Théorie des décisions statistiques » mentionné plus haut). 

En vertu de ces remarques, le fait suivant revêt une signification fonda- 
mentale pour la suite et en particulier pour la résolution des problèmes cités 
dans les exemples. Il apparaît qu’au vu des observations x1, . .., X, d’une 
variable aléatoire & on peut reconstituer la distribution inconnue P de £ avec 
la précision que l’on veut pour les grands n. Ceci vaut également pour toute 
fonctionnelle 4 = 4(P). 

A ce fait qui repose à la base de la statistique mathématique et aux posi- 
tions plus exactes des problèmes sera consacré le chapitre 1. 


CHAPITRE PREMIER 


ÉCHANTILLON. DISTRIBUTION EMPIRIQUE. 
PROPRIÉTÉS ASYMPTOTIQUES DES STATISTIQUES 


Dans les $$ 1 à 4 on introduit les notions d'échantillon et de distribution empirique et on 
étudie leurs propriétés élémentaires, essentiellement les propriétés asymptotiques à la base de 
la statistique mathématique. 

Le $ 5 est consacré aux théorèmes de continuité (de convergence des distributions de fonc- 
tions de suites de variables aléatoires) qui seront utilisés tout au long de cet ouvrage. 

Les $$ 6 à 10 traitent des plus fines propriétés asymptotiques des distributions empiriques, 
et des distributions limites des principaux types de statistiques. 


$ 1. Notion d’échantillon 


Toute étude statistique repose sur un ensemble d'observations. Dans les 
cas les plus simples ce sont les valeurs empiriques (obtenues dans le cadre 
d’une expérience) d'une variable aléatoire £. Nous avons signalé que dans 
les problèmes de statistique, la distribution P de cette variable aléatoire est 
au moins partiellement inconnue 

Plus exactement, soit G une expérience rattachée à une variable aléatoire 
£. Formellement, nous devons construire pour cette expérience un modèle 
mathématique mettant en jeu un espace probabilisé (:7, D:; P), et définir 
de façon convenable sur cet espace une fonction mesurable appelée variable 
aléatoire £ (cf. [11]). Sans nuire à la généralité, on peut admettre que l’espace 
(2, B:; P), est un espace des échantillons (cf. [11]), autrement dit admettre 
que .Z'est l’espace des valeurs de £ (x) = x. Dans ce cas, P peut être appelée 
distribution (ou loi de probabilité) de £. Si £ est une variable aléatoire numé- 
rique, :Z’est la droite numérique R ; si £ est un vecteur, «7’est un espace R" 
à m > 1 dimensions. Dans la suite, nous n’envisagerons que ces deux cas, 
C'est-à-dire que ‘2 sera la droite R pour m = 1 ou l’espace R" pour m> 1. 
Pour 8.;-on prend souvent la tribu des boréliens de :7*). 

Si l'on sait a priori que P est concentrée sur une partie B € B+ de 
l'espace ‘2, on aura intérêt à assimiler .7 à B et ®-à sa restriction à B. 


*) De nombreuses sections de cet ouvrage sont valables pour une situation plus générale 
où Z'est un espace métrique quelconque et Bg-la tribu de ses boréliens, c’est-à-dire la tribu 
de ses ouverts. 
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Considérons ñn répétitions indépendantes de l’expérience G (cf. [11]) et 
désignons par x1, ..., x, l’ensemble de valeurs observées. Le vecteur 


A = (xX:, sé Xn) 


s’appelle échantillon de taille n prélevé dans une population de distribution 
P. Pour abréger on dira aussi « un échantillon issu de la distribution P » 
ou encore « échantillon de distribution P ». 

Pour noter que « X, est un échantillon de distribution P », on se servira 
du symbole : 


Xn € P. (1) 
On utilisera cette notation pour les autres variables aléatoires. Ainsi, 
teP (2) 


voudra dire que £ admet la distribution P. Cet usage du symbole € est con- 
forme à (1), puisque (1) est définie pour tout ñ et en particulier pour ñn = 1. 

Si £ et n sont des variables aléatoires (en général définies sur des espaces 
différents) de même distribution, on dira qu’elles sont parentes ou encore 
équidistribuées et on notera ce fait par £ = n. Si X, et Y, sont des échan- 


tillons de même taille, de distribution P, on dira aussi qu’ils sont parents 


et on écrira : Xn mi ) 


Aux seconds membres de (1) et (2) peut parfois figurer la fonction de 
répartition de P. Si F(x) = P(]- «, x), la notation 


M EF 


sera indentique à (1). 

La notion dx échantillon d’une population générale » se rencontre aussi 
dans les modèles probabilistes élémentaires liés au tirage de boules d’une 
urne dans la définition classique de la probabilité (cf. [11], $ 2 du chap. 1). 
A noter que la définition donnée ici de l’échantillon est de même nature, 
voire même confondue avec celle du [11]. Si les x; (ou la variable aléatoire 
£) ne peuvent prendre ques valeurs a, . .., a; et que les probabilités de ces 
valeurs soient rationnelles, c’est-à-dire 


LA 
PE=D= À, DN=N 
jai 

l'échantillon X, peut être traité comme le résultat d’un « tirage avec remise » 
(au sens du chapitre 1, [11]) dans une urne contenant N boules dont NM. sont 
marquées a, N2 sont marquées a et ainsi de suite. 

Donc, l’être mathématique X = X, (nous omettrons souvent l'indice 7) 
n’est autre qu’une variable aléatoire (x1, . .., x:) à valeurs dans un espace 
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« n-dimensionnel » Z°7 = Z°X .2°X ... x 7; et de distribution définie 
pour B = B, X B X ... xX B;, B; € 8, par les égalités 
P(X € B) = P(x € B1,..., x, € B,) = [I P(x € Bj). (3) 


En d’autres termes, la distribution P définie sur 7” est le produit direct de 
n distributions « unidimensionnelles » données. 

S'agissant des notations de P et des autres, on adoptera les conventions 
suivantes que l’on a déjà utilisées dans (3), sans risque d’ambiguité. 

1. On se servira du même symbole (en l'occurrence P) pour les distribu- 
tions sur (7, 8,) et pour le produit direct de ces distributions sur (2, 

7) (cf. (3)), où Best la tribu des boréliens de 2”. La seule différence 
viendra de l’argument de la fonction P. 

2. La probabilité qu’une quantité X tombe dans un ensemble B, par 
exemple de 8”, nous la noterons soit pas P(B), soit par P(X € B) selon les 
besoins. Ces notations sont identiques, puisque 7?" est l’espace des échantil- 
lons X. 

3. Enfin, le symbole P désignera la notion générale de probabilité (cest- 
à-dire la probabilité rattachée à d’autres variables aléatoires sans spécifier 
l’espace probabilisé). 

En vertu de (3), on peut traiter l'échantillon X comme un événement élé- 
mentaire dans un espace probabilisé des échantillons (2, 8°, P) (cf. [11], 
Chap. 3, $ 2). Signalons que X peut être interprété, tantôt comme une varia- 
ble aléatoire, tantôt comme un vecteur dont les coordonnées sont les valeurs 
numériques obtenues au cours d’une expérience. L’usage montre que cette 
double interprétation est convenable et ne prête pas à équivoque malgré 
l'existence simultanée de notations de la forme P(x: < f) = F{(t), x1 = 0,74, 
X2 = 0,83, etc. 

Signalons également que les composantes x; de l'échantillon X seront 
désignées par des lettres minuscules « droites » x et les variables par des let- 
tres italiques. Le vecteur (x1, . . ., Xn) € 27, xi € 2° sera représenté par une 
lettre semi-grasse x = (x1, . .., Xn). 

L'échantillon est le principal élément liminaire dans les problèmes de sta- 
tistique mathématique. Ses composantes x1, X2, . . ., Xh ne SOnt pas toujours 
indépendantes. Dans la suite nous n’excluerons pas cette éventualité. Mais 
pour ne pas poser de conditions supplémentaires, nous admettrons en cas 
d'observations dépendantes que nous avons affaire à un échantillon de taille 
n = let que les observations sont les coordonnées d’un vecteur x; (l’espace 
Æn'est-il pas de nature arbitraire !) 

Nous aurons souvent à considérer des échantillons X, de taille n illimi- 
tée. Dans ces cas, il sera commode de postuler qu'est donné un échantillon 
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X> = (xX1, X2, . . .) de taille infinie dont X = X, serait l’ensemble de ses nr 

premières composantes. Par échantillon X, de taille infinie, on entendra un 

élément de l’espace probabilisé (2°, 8°,; P), où 2°" est l’espace des suites 

Ca, x2, ..-), P2-la tribu des ensembles (N {x € Bi}, B € B,; N = 1, 
iSN 


2,...et la distribution P possède la propriété (3). Le théorème de Kolmo- 
gorov ([11]) affirme qu’une telle distribution existe toujours. Donc, l’hypo- 
thèse qu’il existe un échantillon X, ne restreint en aucun cas la généralité. 
La suite (l’échantillon) infinie X,. peut être traitée comme un événement 
élémentaire (cf. [11]) dans un cadre probabiliste. 
Dans les cas où nous aurons besoin de comprendre X, comme un sous- 
vecteur de X, on écrira 


Xn = LXo]n; 


où [-], est l'opérateur de projection de 7°” sur :2” qui se définit de manière 
évidente, Conformément à ce qui précède, la notation 


Xo € P 


exprimera que X. est un échantillon de taille infinie de distribution P. 

S’il est indispensable de mentionner expressément que l’on étudie une 
distribution sur (2°, 8%) (resp. sur (2”, 8°) pour 7 < ), et non sur 
(25 8,), on se servira de la notation P°” (resp. P”). L'utilisation systémati- 
que des indices supérieurs æ et 7 allourdirait considérablement les 
notations. 


$ 2. Distribution empirique (en dimension un) 


Soit donné un échantillon X = (x1, . . ., Xn) E P,x €:Z = R. Considé- 
rons la droite réelle R munie de la tribu de ses boréliens, et une distribution 
discrète P, sur (R, 8), concentrée aux points x1, . . , Xn, et telle que la pro- 
babilité de x; est égale à 1/7. Autrement dit, pour tout B € 8, on a par 
définition 


P:(8) = “©, () 


où »(B) est le nombre d'éléments de l'échantillon X contenus dans l’ensem- 
ble B. La distribution P, s'appelle distribution empirique construite au vu 
de l'échantillon X (ou associée à l'échantillon X). On peut la représenter 
encore sous la forme suivante. Soit L.(B) une distribution concentrée en un 
point x : 


1, B, 
L(B) = F sb 
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ñn 
il est évident que »(B) = 2,1,(8) et 
im! 


P:(8) = + DB). @) 


im] 


Il est clair que pour tout borélien B, la distribution P,(B) traitée comme 
une fonction d’échantillon est une variable aléatoire. Nous avons donc 
affaire à une fonction d’ensemble aléatoire ou à une distribution aléatoire. 

Supposons maintenant que À. € P, X, = [X+], et n—+ 0. Nous obte- 
nons alors une suite de distributions empiriques P,. Le fait remarquable est 
que cette suite se rapproche indéfiniment de la distribution primitive P de 
la variable aléatoire observée. Ce fait est capital pour la suite de l'exposé, 
car il indique que la distribution inconnue P peut être reconstituée, avec la 
précision que l’on veut, sur le vu d’un échantillon de taille assez élevée. 


THÉORÈME 1. Soient B € 8 et Xr = [X+]lh € P. Alors pour n —+ 
P:(B) >. P(B). 


La convergence presque sûre (c’est-à-dire avec la probabilité 1) est enten- 
due pour la distribution P = P° sur (R°, 8°, P). Nous avons introduit 
Phypothèse X, = [X<], pour définir les variables aléatoires P;(B) sur un 
même espace probabilisé. 

DÉMONSTRATION. Tournons-nous vers la définition (2) pour remarquer 
que I,,(B) sont des variables aléatoires indépendantes équidistribuées : 
EL,,(8) = P(L;(B) = 1) = P(x € B) = P(B). Puisque P,(B) est la moyenne 
arithmétique de ces variables, il reste à appliquer la loi forte des grands 
nombres. < 

Le théorème 1 établit la convergence de P,(B) et P(B) en chaque 
«point » B. On a toutefois une proposition plus forte qui dit que cette con- 
vergence est dans un certain sens uniforme par rapport à B. 

Désignons par S la famille des ensembles B qui sont des intervalles semi- 
ouverts de la forme [a, b[ à extrémités finies ou infinies et supposons encore 
que À = [XX]. 


THÉORÈME 2 (Glivenko-Cantelli). 
IP;,(8) —- P(B)l — 0. 
sup [P:(8) — PB) 
En réalité, aux noms de Glivenko et Cantelli est rattachée une proposi- 
tion légèrement différente relative à la notion importante de fonction de 


répartition empirique. Par définition, cest la fonction de répartition corres- 
pondant à P,. En d’autres termes, on appelle fonction de répartition empiri- 


26 ÉCHANTILLON. DISTRIBUTION EMPIRIQUE [CH. 1 


que F;(x) la fonction 
Fax) a P,({- œo, xD. 


La quantité 7F,(x) est égale au nombre d'éléments de l'échantillon infé- 
rieurs strictement à x. Pour construire F;(x) on se sert de la procédure sui- 
vante. On range les éléments x1, . .., x, de l’échantillon par ordre de gran- 
deur croissante : 


X() < XE) <<... < X{n) : 
La suite obtenue s’appelle échantillon ordonné ou série variationnelle. On 
peut alors poser 


Fa(x) _ Æ pour xE€ JxXw), X(k + 1)}, 


où # parcourt les valeurs de 0 à ñ, Xçoy = — ©, Xn+1) = ©. Il est évident 
que F;(x) est une fonction en escalier présentant des sauts de 1/n aux points 
x; si les x; sont distincts. 

Supposons que F{x) = P(]- , x[) est la fonction de répartition de £ 
(ou ce qui revient au même de x.) et que Xh = [X%x]1 Le théorème de 
Glivenko-Cantelli s'énonce comme suit : 


THÉORÈME 2A. Pour n —+ 
suplF,(x) — F(x)| + 0. 
E .s. 
On omettra l'indice nr de F, et on écrira simplement F°. 
DÉMONSTRATION du théorème 2A. Supposons tout d’abord pour sim- 
plifier que la fonction F est continue. Soit e > 0 un nombre aussi petit que 


l’on veut tel que N = 1/e soit entier. Puisque Fest continue, on peut exhiber 
des entiers Z% = — ©, Z1,..., ZN-1, 2N = ©, tels que 


F(&) = 0, Fa) = e = IN, ..., Fax) = Ke = K/N,..., FN) = 1. 
Pour z € [&, +11 on a les relations 
F(2) — FQ) < Fi) — F@) = F&s+1) — Fi) + 6, 


3 
F2) — F2) > Fa) — F&+1) = F'(&) — F(&) — €. . 


Appelons 44 l’ensemble des événements élémentaires w = XX sur les- 
quels F’(x)—F(x). Le théorème 1 nous dit que P(4:) = 1. Donc, pour 
N 


chaque w € À = ff” Az, il existe un #(w) tel que pour tous les ñ > n(w) 
K=0O 
l'on ait 
| Fu) — F&)|l<e k=0,1,.., N. (4) 
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Jointes à (3) ces inégalités entraînent 
sur |F° (7) — F(G)| < 2e. (5) 


Cette relation a donc lieu pour tout e > 0, tout w € À et tout ñn > nñ(w) 
assez grand. Le théorème est prouvé pour la fonction continue F, puisque 
P(A) = 1. 

La démonstration est en tous points identique pour une fonction arbi- 
traire F(x). Il faut seulement se servir du fait suivant : pour toute fonction 


F(x) il existe un nombre fini de points -0=Z%<2Z < ...< ZN-1 < 2N= 
= © tels que 
F(& +1) —- F& +0<e k=0,1,..,N —1, (6) 


(pour fixer les idées on peut admettre que l’ensemble {z;) contient tous les 
points en lesquels F subit un saut supérieur par exemple à e/2). De façon 
exactement analogue à (3), on obtient pour z € ]%, +1] 


F() - F(7) < F'(2x +1) — F(X+1) + €, 


(7) 

F() — FQ) > F'& + 0) — F(& + 0) — €. 

Aux ensembles 44 qui sont définis comme précédemment, ajoutons les 

ensembles Ag, k# = 0, 1,..., N, sur lesquels F’(x + 0)—-F(x + 0). Le 

théorème 1 nous dit que P(A4) = P(A#) = 1, de sorte que sur l’ensemble 
N 


A = fn AkAf tel que P(A) = 1 on a l'inégalité (4) ainsi que les inégalités 
k=0 


Fe + 0) — Fax + 0)]<e k=0,1,...,N, 


pour ñn > n(w) assez grand. Combinées à (7) ces inégalités entraïînent (5). 

Le théorème 2A est un cas particulier du théorème 2, puisque l’ensemble 
]— ©, x{ appartient à %; par ailleurs, on peut déduire facilement le théorème 
2 du théorème 2A, car pour B = {[a, b[ 


| P:(B) — P(B)| < |F:6) — F(b)| + |F:(a) — F(a)|, 
si bien que 
Le |P;(B) — P(B)| < sup[lFr(b) — F(b)| + | F:(a) — F(a)| J > 0. 


REMARQUE I. Il est immédiat de voir que de tels raisonnements nous 
permettent de prendre pour famille d’ensembles % dans le théorème 2 des 
familles d’intervalles ouverts Ja, b[{, d’intervalles fermés [a b] et de réunions 
d’un nombre fini (< à un certain N) de ces intervalles. 

Par ailleurs, si pour % on prend une classe d’ensembles assez riche, le 
théorème 2 est mis en défaut. Si par exemple % contient la réunion de tout 
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nombre fini d’intervalles, alors l’ensemble B,= (J ]xx-—1/n°, x +1/n°[e%, 
k=1 


P,(B:) = 1 et pour la distribution P qui est uniforme sur {0, 1], on a 
P(B;) < 2/n, de sorte que 


SUD | P;,(8) — P(B)| > P,(B:) — P(B.)—1. 


Signalons en conclusion de ce paragraphe que la représentation (2) per- 
met d’obtenir relativement au comportement asymptotique de P, des théo- 
rèmes plus précis que ceux de type Glivenko-Cantelli (ces résultats seront 
exhibés aux $$ 4, 6). Pour illustrer les possibilités qui nous sont offertes ici, 

#ñ 


rappelons que l'expression 2; I,,(8) de (2) est une somme de variables 
aléatoires indépendantes équidistribuées dans le schéma de Bernoulli 
EL;(B) = P(;(B) = 1) = P(B), 
EË,(8) = P(B), VL(B) = P(BX1 — P(B)). 
Le théorème limite central entraîne immédiatement la proposition suivante: 
THÉORÈME 3. La distribution P,(B) se représente sous la forme 


P,(B) = P(B) + Re. (8) 


. 1 
] stri : : L,(B) — P(B l 
où la distribution de ÿ,(B) 21 (3) (B)) converge vers la 
distribution normale de paramètres (0, P(B) (1 — P(B)). 
L'étude de P,(B) sera approfondie dans ce sens au $ 6. Des théorèmes 
de convergence presque sûre plus précis sont accessibles au $ 4. 


$S 3. Caractéristiques empiriques. Deux types de statistiques 


1. Exemples de caractéristiques empiriques. Les caractéristiques empiri- 
ques sont généralement des fonctionnelles mesurables de la distribution 
empirique ou, en d’autres termes, des fonctions d'échantillon qui sont sup- 
posées mesurables. Les plus simples d’entre elles sont les moments empiri- 
ques (ou d’échantillonnage). On appelle moment empirique d'ordre k la 
valeur 


ai = 400 = [rare = Dix 
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Le moment centré d'ordre & est égal à 
a° = æ°(X) = (e — ai) dFa(x) = 15% - a). 
is! 


Les moments empiriques a et &° sont désignés par les symboles spé- 
ciaux x et S? : 


L « 
X=a- 13 S = @° = 15 — x). 
ER | 


im] 


Dans les problèmes de statistique on se sert de toute sorte de caractéristi- 
ques empiriques. Ainsi, la médiane empirique Ÿ” est la valeur moyenne de 
la série variationnelle, C'est-à-dire la valeur #” = xwm) Sin = 2m — 1(nest 
impair), et = (Xom) + Xen+ 1)/2 sin = 2m (n est pair). On rappelle que 
la médiane ÿ d’une distribution continue P se définit comme la solution de 
l'équation F(F) = 1/2. 

Une notion plus générale est celle de quantile ÿ, d'ordre p. On appelle 
quaniile d'ordre p le nombre ÿ, tel que F(ÿ,) = p. La médiane est donc le 
quantile d'ordre 1/2. Si F présente une discontinuité (une composante dis- 
crète), cette définition n’a plus de sens. Aussi nous servirons-nous dans le 
cas général de la définition suivante : 

On appelle quantile ÿ, d'ordre p de la distribution P le nombre 


f = Sup {x : F(x) < p]. 


Traité comme une fonction de p, la quantité ÿ, n’est autre que la fonction 
F7") inverse de F{x). 

Contrairement à la précédente, cette définition de ?, (ou de F-'(p)}a 
un sens pour toute F{x). 

Il est évident qu'on peut envisager aussi un quantile empirique ?» 
d'ordre p égal par définition à la valeur x. où / = [np] + 1 et xx), sont 
les termes de l’échantillon ordonné associé à X, # = 1,..., n. Pour p = 
= 1/2, nous conservons la définition de &” = #i,2 donnée ci-dessus (ces 
deux définitions ne sont confondues que pour les 7 impairs). 

2. Deux types de statistiques. Soit donnée une fonction mesurable S de 
n arguments. La caractéristique empirique S(X) = S(x:, . . ., xn) est appelée 
aussi statistique. De ce qui précède il est clair que toute statistique est une 
variable aléatoire, dont la distribution est entièrement définie par la distri- 
bution P(B) = P(x € B) (on rappelle que S(X) peut être traitée comme une 
variable aléatoire définie sur (2, 8°, P), où P est le 7-uple produit direct 
de distributions de x; à une dimension). 

Nous distinguerons ici deux classes de statistiques que nous rencontre- 
rons fréquemment dans la suite. Nous les construirons à l’aide des deux 
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types suivants de fonctionnelles G(F) de la fonction de répartition F : 
I. Les fonctionnelles 


G(F) = h((g(x) dF()), 


où g est une fonction borélienne donnée, À une fonction continue au point 
a = (ex) dFo(x), où Fo est telle que X € Fo. 
II: Les fonctionnelles G(F) qui sont continues au « point » F0 pour la 
métrique uniforme : G(F”)-— G{(Fo) si suplF (x) — Fo(x)l —0 et les sup- 
x 


ports *) des distributions F°” sont contenus dans celui de F0. Ici Fo est 
encore une fonction pour laquelle X € Fo. 
Nous définirons les classes de statistiques correspondantes à l’aide de 
légalité 
SX) = G{(P:), 


où FA est une fonction de répartition empirique. Nous obtenons alors 
I. La classe des statistiques de type 1 


0 = h( [eco arsn) = # (4 Dec). 


in] 
Il est évident que tous les moments empiriques sont des statistiques additi- 
Li 


ves 1 > ex) de type I. 
isl 

IT. La classe des statistiques de type II ou statistiques continues au point 
Fo. 

Il est clair que par exemple la médiane empirique sera une statistique 
continue au point F si la médiane ÿ existe, F(f) = 1/2, et Fest continue 
et strictement croissante au point ÿ. 

Les fonctionnelles n’appartiennent pas nécessairement à l’une ou à 
l’autre de ces classes. La fonctionnelle G(F) peut n’appartenir à aucune de 
ces classes ou bien leur appartenir simultanément. Si par exemple G est une 
fonctionnelle de type I, le support de F est contenu dans l'intervalle [a, b] 
(F(a) = 0, F(b) = 1) et la fonction g est à variation bornée sur [a, b], alors 
G est aussi une fonctionnelle de type II, puisque dans ce cas 


b 
je) dFQ) = 86) — [FG) de(x) 


*) Le support NF d'une distribution P de fonction de répartition F est l’ensemble pour 
lequel P(Nr) = 1. | 
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est continue par rapport à F pour la métrique uniforme. Ceci exprime que 
les statistiques x et S? de type ! sont aussi de type II si X € P et P est con- 
centrée sur un intervalle fini. 

Les théorèmes 2.1 et 2.2 peuvent être complétés par la proposition sui- 
vante relative à la convergence presque sûre des caractéristiques empiriques. 


THÉORÈME 1. Supposons comme précédemment que X, = [X<]h € F 
Si S(X) = G(F}) est une statistique de type 1 ou II, alors 


G(F?) — G(F) pour n — oc. 
P.s 


On admet bien sûr que la valeur G(F) existe. 

Donc, les échantillons de grande taille permettent d’estimer non seule- 
ment la distribution P, mais aussi les fonctionnelles de cette distribution, 
du moins celles qui appartiennent à l’une des classes citées dans le 
théorème. 

DÉMONSTRATION. Elle coule de source pour les deux classes de statisti- 
ques. Supposons par exemple que G(F) = h((ex) dF(x)). Alors 


PE. : 
S = 500) = [809 dr) = À D tx) 
il 
est une somme de variables aléatoires indépendantes d’espérance 
mathématique 


Eg(u) = [80x) dF(x). 
Donc, la loi forte des grands nombres nous donne S De Eg(x:). Supposons 


maintenant que À = {X% : S(X) —Eg(x:)}. Alors P(A) = 1 et, si Xx € À, 
il vient S(X)—Eg(x), A(S(X)) —A(Eg(x1)). En d’autres termes, on a sur 
l’ensemble À 


G(Fr) G(F). 


Le théorème relatif aux fonctionnelles de type II résulte directement du 
théorème de Glivenko-Cantelli. 
Le théorème 1 nous dit que les moments empiriques centrés et non cen- 


trés convergent presque sûrement vers les moments respectifs de P lorsque 
n + : 


ax° = a (X) = 1>u — x} sas E(x1 — Ex)". 


i=1 
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Nous avons ainsi établi un fait important qui est significatif pour nous : 
la distribution empirique et une vaste classe de fonctionnelles de cette distri- 
bution convergent vers les valeurs « théoriques » correspondantes lorsque 
n +. 

Des théorèmes plus précis sur les distributions des caractéristiques empi- 
riques seront développés aux $$ 7, 8. 


$ 4. Echantillons multidimensionnels 


1. Distributions empiriques. Les distributions et les caractéristiques 
empiriques se construisent comme en dimension un lorsque la variable aléa- 
toire £, et donc ses valeurs empiriques x1, ..., Xn, Sont des vecteurs de 
dimension mm > 1:Xx = (xx. 1, ..…, Xk, nm). Dans ce cas, P(B) = P(£ € B) 
est une distribution sur Z = R”"'et (2”, 8”, P), où P est le n-uple produit 
direct de distributions P sur (R", 8, = ®R), l’espace échantillon. La nota- 
tion À € P reste en vigueur. 

La distribution empirique P, se construit au vu de l'échantillon X 
comme une distribution discrète de poids 1/7 en x1, . . ., Xn, de sorte que 


P:) = 2) - 15 148, 


isi 
où »(B) est le nombre de points tombant dans l’ensemble 2 L,, une distribu- 
tion concentrée au point Xi. 

Le théorème 2.1 de convergence presque sûre de P,(B) vers P(B) est 
manifestement valable. 

La généralisation du théorème de Glivenko-Cantelli au cas multidimen- 
sionnel est liée à l'émergence de nouveaux problèmes. L'un d’eux est la géné- 
ralisation de l'intervalle à un rectangle, un ensemble convexe, etc. 

La plus simple généralisation du théorème est la suivante. 

Soit y = (1, ..., Ym) un point de R”" et soit B; un angle de sommet au 
point { = ({1, ..., {m) : 


B = {ER nm <tu,k=1,...,,m). 


La fonction . 
Fa(t) = P,(B:) 


s'appelle fonction de répartition empirique. 
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THÉORÈME 1. Soit Xn = [Xs]n, Xx € F Alors 
suplF,(t) — Ft) + 0, n —+ co. 
| 8. 


2*. Variantes plus générales du théorème de Glivenko-Cantelli. Loi du 
logarithme itéré. Le théorème de Glivenko-Cantelli admet la généralisation 
suivante. Soit Ç la classe des ensembles convexes de R”. 


THÉORÈME 2. Soit Xn = [X>]n, À» € P, et supposons que la distribu- 
tion P est absolument continue par rapport à la mesure de Lebesgue sur R”. 


Al e 
sup IP°(B) — P(B)I — ©. (1) 
BeEÇ P.s. 


Les autres généralisations éventuelles du théorème 1 peuvent être acqui- 
ses à l’aide des propositions de l’Annexe I. 


REMARQUE 1. La condition de continuité absolue de la distribution P 
par rapport à la mesure de Lebesgue est essentielle dans le théorème 2. Ceci 
est illustré par l’exemple suivant. Supposons que P est une distribution uni- 
forme sur le cercle unité de R°. Inscrivons dans ce cercle un polygone fermé 
Bx de sommets x1, ..., xh. L'ensemble obtenu est convexe. Mais P(Bx) = 
= 0, P;(Bx) = 1, et par suite la relation (1), où € est la classe iles ensembles 
convexes, est mise en défaut. 

Les théorèmes de type Glivenko-Cantelli peuvent être considérablement 
affinés, du moins pour les classes élémentaires d’ensembles. Par exemple, 
pour les fonctions de répartition empiriques F,(f) (cf. théorème 1), on peut 
exhiber une suite non aléatoire b,—0 pour 7—%, telle que 

lim.sup b; ! sup 1F;(r) — F(t)l = 1 
L 


n— 
presque sûrement (pour presque tous les « points » X.). Il s'avère que b; 


est du même ordre de petitesse que ha , 


THÉORÈME 3 (loi du logarithme itéré). Si Fft) est continue, on a 


P(lim.sup Le sup FO — FOI = 1) = L 


Le théorème 3 est étroitement lié à l’approximation normale (2.8) de 
Fat), qui est valable aussi pour le cas multidimensionnel. 

La démonstration des théorèmes 1 et 2 sera donnée dans l’Annexe I. 
Celle du théorème 3 figure dans [45]. | 

3. Caractéristiques empiriques. En dimension un comme en dimension 
m > 1 ce sont des fonctions d’échantillon mesurables. Les plus élémentaires 


3—4195 
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d’entre elles sont les moments empiriques. Par exemple, les moments empi- 
riques d'ordre un sont égaux à 


n 
. . ] . 
dj = a1 j(À) — LD us = 1, ss M. 
km] 
Les moments d'ordre deux centrés et non centrés sont 


ñn 
a,ÿ = @.uX) = LD ie, L,j=1..,m, 
Lu]! 


ay = Sÿ = LD — ai), — Gi), 
km] 


etc. Comme en dimension un, on s'assure sans peine, en appliquant la loi 
forte des grands nombres, que ces caractéristiques convergent presque 
sûrement vers les moments « théoriques » respectifs. En particulier, 
Sy . Elx1,i — Ex1,i)(u,, — Ex,,). On s’assure aisément (pour plus de 


détails voir le paragraphe suivant) que les coefficients de corrélation 
empiriques 


net = e(xi.i x) = EC = Ex — Ex) 
VSiSg °° Nu NX 


possèdent aussi cette propriété. 

Les théorèmes de continuité qui vont suivre nous permettront d'établir 
des propositions plus précises sur la distribution des caractéristiques 
empiriques. 


$ S. Théorèmes de continuité 


Pour la suite de l’exposé nous aurons besoin de propositions auxiliaires 
qu’on pourrait appeler théorèmes de continuité. Pour la commodité nous 
les regrouperons en un seul paragraphe. Nous avons déjà utilisé un de ces 
théorèmes, savoir le théorème 3.1. Le premier théorème de continuité en est 
très proche. 


THÉORÈME 1 (premier théorème de continuité). Soit À = [Xs]: € P. 
Si Sn = Sn(X) est une suite de statistiques scalaires ou vectorielles telles que 
Sn si S et H(s) est une fonction continue presque partout par rapport à 


la distribution de la variable aléatoire S (autrement dit H(s) est continue 
en chaque point de l'ensemble B P(S € B) = 1), alors H(S:(X))) H(So). 
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Si S, converge en probabilité vers S (on notera ceci S; = So), alors 
pour les mêmes conditions H(Sr) ms HS). 


DÉMONSTRATION. Elle est presque évidente. Puisque les événements 
A = {X : Sn(Xo) + So(Xe)} et € = {X% : So(X>) € B} sont presque sürs, 
il en est de même, en vertu de l'égalité P(A NC) = P(A) + P(O) — P(A)U 
U C), de l'événement À N C (sur lequel H(S;(X2)) + H(So(X%))). 

Pour alléger la démonstration de la convergence en probabilité, nous 
admettrons accessoirement que S = const (nous n’aurons besoin que de ce 
cas). Pour € > 0, il existe un à > 0 tel que l'événement 4, = {Xx : |Sh— 
— Sl < 6} entraîne | H(S:) - H(S)l < € et de plus P(4,) > 1 — € pour 
tous les n assez grands. Donc, pour de tels 7 on a 1 — € < P(4,) < 
< P(IH(Sr) — H(So)l < €). < 

Avant de formuler les théorèmes suivants introduisons quelques 
notations. 

Soit donnée une suite de vecteurs aléatoires 7 = (14, ..., 1) (pas 
nécessairement sur le même espace probabilisé). Si les distributions de 7%: 
convergent faiblement pour 7— vers la distribution d’une variable aléa- 
toire 7, on notera ce fait par le symbole 


Nn = 7. (1) 


Nous utiliserons ce symbole également pour les distributions, de sorte que 
la relation (1) équivaut à 
Q: nu Q, 


où Q, et Q sont les distributions respectives de 7, et de 7. Cette convention 
est commode et pas ambiguë. 

Il est clair que de 7 > n Ou 7 + 1 il s'ensuit que 7, = 7 (comparer 
avec [11]). 

Si donc il est question d’une relation (mettant en jeu la convergence fai- 
ble) entre objets de même nature (entre variables aléatoires ou entre distri- 
butions), on se servira du symbole =. Il serait commode de disposer aussi 
d’un symbole pour exprimer que « les distributions de n, convergent faible- 
ment vers Q lorsque n —  ». On notera ceci par 


Mn € Q, (2) 
de sorte que le symbole & exprime le même fait que le symbole = mais 
pour des objets de nature différente (à gauche on a des variables aléatoires, 


à droite, une distribution). 
Soient m et n des vecteurs aléatoires de R*. 


THÉORÈME 2 (deuxième théorème de continuité). Si 7», = net H(t),t € 
€ R°, est une fonction continue de R° dans R*, alors H{nn) = H(n). 


3° 


36 ÉCHANTILLON. DISTRIBUTION EMPIRIQUE (CH. 1 


Signalons que ce théorème est en fait valable dans une forme plus géné- 
rale *}) : Si nn = n et H{(t) est continue dans un ensemble À € 8°, P(nE€A)= 
= ], alors Hn.) = Hn). 

DÉMONSTRATION du théorème 2. Supposons que Q, et Q sont les distri- 
butions respectives de 7, et de 7. La convergence faible de Q, vers Q exprime 
par définition que pour toute fonction continue et bornée f : R‘—R, on a 


[S0)Q; (>) + [fU)Q@»), 
Ou, ce qui est équivalent, 
E/{nn) — En). (3) 
Nous devons obtenir une relation identique pour les distributions de 
H{m) et de H(7). Autrement dit, nous devons établir que pour toute fonc- 
tion bornée continue g : R* — R, on a Eg(H(m)) — Eg(H{n)). Or ceci 


résulte directement de (3), puisque la composée $ = g.H : R°‘—R est conti- 
nue et bornée. << 


THÉORÈME 3 (troisième théorème de continuité). Soif nn = n€R et soit 
H(t), tER, une fonction dérivable au point a. Si b, est une suite numérique 
convergeant vers 0, alors 


(H(a + bann) — H{(a)}/bh = nH'(a). (4) 
DÉMONSTRATION. Considérons la fonction 
_ ((H(a + x) —- H(a))/x  xx0, 
h(x) = Leon = 0 


qui est continue au point x = 0. Puisque b,7,= 0, le premier théorème de 
continuité nous donne A(b:7)=h(0) = H’(a). Le deuxième théorème de 
continuité entraîne 


(H(a + bann) — H(a))/bn = h(Dann)nn = H”(a}n.< 
Citons maintenant deux généralisations du théorème 3. 


THÉORÈME 3A. Soit nn = (nf, ..., n°)=n=(n®, ..., n°9) er soit 
H{(t) une fonction scalaire du vecteur t=(t1, . .., t:), dont la dérivée H”(t)= 
æ 9H ere 0H existe en a. Si b1—0, on a alors 

ôt ôts 


HG + dim) — HGb = mH'QN = DE 9. 
j=1 
L'indice T représente la transposition. 


*) Pour plus de détails voir [5]. 
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Si n(H'(a))! = 0 presque sûrement (par exemple H'(a) = 0), et si la 


2 
matrice H”(t) des dérivées 2_HO 


existe en a, alors 
otiôt ÿ ” 


ŒHG@ + Dame) — HQE = nr" = À D EC 1070,6) 
=1 


Supposons maintenant que H(f) est une fonction vectorielle. Il est alors 
évident que la distribution limite de chaque composante H; sera décrite par 
le théorème 3A et que la distribution conjointe sera justiciable du 


THÉORÈME 3B. Soit nn = n€R' et soit H(t)ER* une fonction vectorielle 
dont les dérivées H{, j = 1,...,k, vérifient les conditions du théorème 3A. 
Alors 


(H(a + bnm) — H(a))/b1 = n(H’(a))’. 


Si nH'(a))” = 0 presque sûrement et que les matrices Hf j = 1,... k, 
existent au point a, alors 


(HG + Dam) — HQ)/bè = + Han’, …, nHE(aM”). 


Les démonstrations de ces théorèmes sont pratiquement les mêmes que 
celle du théorème 3, Cest pourquoi nous les proposons au lecteur à titre 
d'exercice. Nous proposons par ailleurs au lecteur de s’assurer que dans (4), 
(5) et (6) il est possible de remplacer le symbole = par + OU > si respecti- 
vement Mn + 7 OÙ Mn > 7. 

Les théorèmes 1, 2 et 3 se résument de la manière suivante. Supposons 
que n—+ désigne l’un des symboles RP Si H est continue, 
alors mr "7 nentraîne H(m)7AH(n). 

Si H est dérivable au point a, et 7."v-», alors pour b,—0, on a 


(H(a + Dan) — H(a))/b, nn H'(an. (7) 


REMARQUE l. Il est immédiat de voir que si a dépend de n de telle sorte 
que a = a, = & + o{l) et si les dérivées figurant dans les théorèmes 3, 3A 
et 3B sont continues, la relation (7) reste en vigueur sous la forme 


(H(Gx + Bnnn) — H{(a))/bs + H'(@h. (8) 


Pour le prouver, il suffit de remarquer que le premier membre de (8) se 
représente sous la forme H’(an)nn, Où on = 04n + (1 — 8)(an + bim) 7 @, 
191 <1, et d'appliquer le deuxième théorème de continuité. 

Cette remarque est également valable pour les analogues multidimen- 
sionnels de cette proposition (théorèmes 3A et 3B). 
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Les théorèmes formulés concernaient la convergence presque sûre et la 
convergence des distributions. Le quatrième théorème porte sur la conver- 
gence d’intégrales. 

THÉORÈME 4 (théorème de continuité des moments). Soit {m} une 
suite de variables aléatoires numériques. Supposons que n.,=n lorsque 
no. Dans ces conditions, si l’une au moins des conditions suivantes 

1) lim. sup Î P(lml>x)dx—0 pour N—, 
no N 


2) P(Iml>x)<p(x), [phdx<, 


O0 
3) Elmnl'*®< c < w pour un a > 0, 
est réalisée, alors lim En: = En. 


Signalons que la condition 1 exprime que | PCI! >x)dx tend vers 0 


N 
uniformément en #7 lorsque N— co. 


DÉMONSTRATION. L’inégalité généralisée de Tchébychev 
E| Nn | 1+@ 


P(Iml>x)< PET 
nous dit que la condition 3 entraîne la condition 2. A son tour la condition 
2 entraîne la condition 1. 

Supposons que la condition 1 est réalisée. Pour alléger les raisonnements 
on admettra d’abord que 7:20. Une intégration par parties nous donne 
alors 


Em = -— | x dP(nn2Xx) = | P(m >x)dx. 


0 0 


Cette représentation, la convergence P(7,2x)—P{(n2>x) pour presque tous 


les x et la convergence uniforme en n de l’intégrale | P(7n 2 x)dx entraînent 
0 
la légitimité du passage à la limite sous le signe d’intégration, soit 
lim Em = lim [P(m>x)dx = | P(n>x)dx = En. 
LE Fr 0 0 
Dans le cas général, il faut se servir de la représentation 7 = 7x — mn, 
OÙ 77 = Max (mn, 0), nn = max(-— 71, 0). 
Signalons que la condition 1 peut être traitée aussi comme une condition 
d’intégrabilité uniforme de m, qui entraîne immédiatement la convergence 
annoncée. En, En (cf. par exemple [11], [52]). 
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8 6* Fonction de répartition empirique en tant que processus aléatoire. 
Convergence vers le pont brownien 


Dans ce paragraphe on admettra connue la notion de processus aléatoire 
et en particulier les définitions et les propriétés élémentaires des processus 
wienérien et poissonnien. 

1. Distribution du processus r7F#(f). On limitera notre étude au cas de 
la dimension un, c’est-à-dire au cas où Z2°= R. Supposons comme précé- 
demment que F;(t) = P;( - >, D est une fonction de répartition empiri- 
que associée à un échantillon X = *, € P. 

La fonction F;(t) est une fonction de deux variables : # et X, ou, ce qui 
revient au même, une fonction aléatoire de f ou un processus aléatoire. 

Trouvons les distributions finidimensionnelles de ce processus. Soient 
h<f2<... <im m points arbitraires de la droite numérique. Posons fo = 
= — ©,{m+1 = © et désignons par 


Ajg = g(t;+1) — g(t) 
les accroissements de la fonction g(f) sur les semi-intervalles A; = [£,, t;+1l, 
j = 0,1,..., m. Considérons l’accroissement A;x, du processus 


Tnt) = nFi(0). 


Il est évident que c’est le nombre d'éléments de l’échantillon qui tombent 
dans l’intervalle A;. La probabilité d’entrée d’un élément de l'échantillon 
(disons x1) dans A; est égale à p; = P(A,). Vu que les entrées dans A, j = 
= 0, 1,..., m, sont des événements incompatibles, le vecteur (Aoz:, . .. 
+ AmTn) admet visiblement une distribution polynomiale (cf. [11]) avec 


les probabilités Do, . .., Pm, 2, P;j = 1. On sait que 


j=0 
? 
P(AoTa = Ko,  . Ann = Km) = ere ss "à pE”, (1) 
où > K; = nn. 
jJ=0 


Supposons maintenant que n(u), u€[0, 1], est un processus poissonnien 
continu à gauche (cf. {11]) de paramètre X, n(0) = 0. Les accroissements de 
ce processus sont indépendants 


P(n(u) = K) = e” M" Qu)" . 


K! 
Si la fonction de répartition F(f) = P(]— ©, f{) est continue, nous pou- 
vons faire un changement de temps continu en posant u = Ft), 


1€] — ©, œ[, et définir ainsi le processus x(f) = n(F(t)) sur l’axe temporel 
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tout entier. Considérons les accroissements 
Ajx = A(lj41) — 26) = nF(G+1)) — n(F()) 
de ce processus sur les intervalles A;. Alors 
m m ° 
P(Aor = ko, Amx = Km) = [I ex QD = e [I La 
j=0 j=0 
quant à la probabilité conditionnelle de cet événement (sachant que æ()= 
= 2 A;jx = n), elle sera égale à 


Dax = ») = 


P(aor = ko... dur = 


J=0 
_ P(Aor= ko, ..., AmT=km) | L PANIERS 
TT pholen (ur = ko, .. AnT = Km) ja = 
= "IT PT (2) 


Pour tout À > 0, nous avons obtenu la même expression qu’au second mem- 
bre de (1). Nous avons ainsi prouvé le 


THÉORÈME 1. Si F(t) est une fonction continue, la distribution du pro- 
cessus nF,{t) est confondue avec la distribution conditionnelle du processus 
a(t) = n(F(t)) sachant que x(©) = n (n(1) = n). 

Le théorème exprime que les écarts n(F,(f) — F\t)) sont distribués 
comme n(F(t)) — nF(t) sachant que (1) = n, et le problème se ramène, au 
changement u = F(t) près, à l'étude des écarts m(u) — nu d'un processus 
poissonnien conditionnel (sachant que (1) = n) sur l'intervalle [0, 1] ou, 
ce qui est équivalent, à l'étude des écarts n(F;(t) — fr), où F,(f) correspond 
à une distribution uniforme sur l'intervalle [0, 1]. 

Le processus nF,(1) admet une autre représentation utile pour les appli- 
cations. Soient ÿ1, t2, . .., les points de discontinuité d’un processus pois- 
sonnien m(f) : n(fz + 0) = K. On sait que les différences & = Le — 
— Ÿr-1(Ÿo = 0), k = 1, 2, ..., sont indépendantes et exponentiellement 


distribuées : me 
P&>x) =e , 
t& suit une loi gamma de densité (cf. aussi $ 2.2) 


& 
nat) = RG eat, 
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Pour alléger les énoncés, on supposera que F{(f) = £, t€[0, 1], 6 = 0,1m+1= 
= ], de sorte que n(f) = x(f). 


THÉORÈME 2. La distribution du processus nF{t) est confondue pour 
tout v>0 avec la distribution conditionnelle du processus x{tv), t€]0, 1[, 
sachant que în+1 = v. 


Autrement dit, le théorème 1 reste en vigueur si l’on remplace la condi- 
tion (1) = 7 par la condition bien plus restrictive x(1) = n, x(1 + 0) = 
= n + 1 (on admet que les trajectoires x({) sont continues à gauche). 

Vu que la probabilité de cette nouvelle condition est nulle, il convient 
d'ajouter (cf. $$ 4, 8 de [11] sur les espérances mathématiques conditionnel- 
les, ainsi que le $ 2.9) que par distribution conditionnelle on comprend les 
probabilités 
P(A; {a + :1€dv) 


PAR EN RER) 


où À = {Aoz(fv) = ko, ..., Amt({v) = Km}, Aja(fv) = a(f+1v) — (tv). 
DÉMONSTRATION. L'événement {£:+1€dv]) peut être représenté par le 
produit des deux événements 
B = {rx(v) = n} et C = {x(v + dv) — x(v) = 1]. 


Les événements B et AB ne dépendent pas de C, puisque les événements B 
et AB d’une part et l'événement C de l’autre font partie des accroissements 
du processus x sur des intervalles de temps disjoints. Donc 


P(AlEns1 = v) = re = = P(Alx(v) = n).  (G) 


Exactement comme dans (2), on s'assure que cette expression ne dépend ni 
de v ni de À et est confondue avec (1). < 


COROLLAIRE 1. La distribution du processus nF,(t) est confondue avec 
celle de x{tïn+1), tE[0, 1]. 


Ceci résulte du fait que pour B = {Aor(tfr +1) = Ko, . . ., AmA(lŸn + 1)= 
= K#}, On a en vertu de (3) 
Akj 


P(B) = (LOTS = V)P({n+1€dv) = n! LT 
sÈ 


j 
Le corollaire 1 entraîne le 


COROLLAIRE 2. La distribution conjointe des éléments de l'échantillon 
ordonné x), . - -» Xfxy ASSOCIÉ à un échantillon X de distribution uniforme 
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est confondue avec la distribution conjointe de 


ÿ1 (A 
Qn+1 —— Ün+1 | 


ou, ce qui revient au même, la distribution conjointe des différences x. 
XG2) — X{1)s «© « - Xqn) — Xfn=-1);, 1 — X{n) est confondue avec celle de 
£ En +1 
En +1" En+1 


Nous allons achever ce n° par le calcul des moments d’ordre deux des 


accroissements du processus #7(F#t) — F(t)). Il nous sera plus commode de 
traiter le processus 


w"() = Vn(Fi(t) — F6). 


Il est évident que EA;w” = 0, E(A;w")? = A;F(1 — A;F). Pour calculer les 
moments mixtes, on remarquera que (i # j) 


E(A, w"-A, w”) 


D D EGuta) - PAME(A) — PA) = 


k,l=1 


1 D (Elu(A)Iu(A) — P(A)P(A)). 


Klum]! 


Comme 
us SPUPGA) si k#l, 
Ex (G(a) = {o si £=, 
il vient 
E(Aiw"-A;w") = — P(A)P(4;) = — A;F:A;F. 


Donc, les accroissements du processus w” sont négativement corrélés. 

2. Comportement du processus w”(f) à la limite. On admettra que F(f) 
est continue. Du n° 1 il s’ensuit alors qu’on peut se borner à l’étude d’une 
distribution F(f) = t, tE[0, 1], uniforme sur [0, 1]. 

Désignons par w(f) un processus wienérien standard, c’est-à-dire un pro- 
cessus à accroissements indépendants dont les valeurs suivent une loi nor- 
male de paramètres (0, #). Le processus 


w°(t) = w(t) — tw(l) 


s’appelle pont brownien (car ces deux extrémités sont fixées : w°(0) = 
= w°(1) = 0). La distribution de ce processus est confondue avec la distri- 
bution conditionnelle du processus w(f) sachant que w(1) = 0 (plus exacte- 
ment, il faut prendre la condition lw(1)l <e et passer à la limite pour e—0). 
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Il s’avère que les distributions finidimensionnelles des processus 
w"() = Vn(Fi(n) — F()), te[0, 1], 


convergent pour 7—+ vers les distributions respectives du pont brownien 
w ?). 

Ce fait permet d'approcher les processus w”(f}), appelés parfois proces- 
sus empiriques, par le processus w °(r). Plus exactement, on peut concevoir 
que pour de grands #, on a la relation 


Va(Fa(0) — F()) = w°), (4) 


qui décrit la distribution des écarts entre F,(t}) et F(t) (on rappelle qu'on a 
convenu que F{(t) = 1, tEf0, 1]). 

Mais nous aurons besoin d’une relation (4) plus forte. Considérons par 

exemple la statistique U = Vn sup (F;(1) — F(t)). La relation (4) nous invite 
LA 


tout naturellement à supposer que pour les grands n, la variable aléatoire 


U est distribuée approximativement comme sup w°(f). Or ceci ne résulte 
Osrsi 


en aucune façon de notre relation (4), puisque U ne peut être représentée 
comme une fonction des valeurs de w"(r) = Vn(F;(t) — F{(t)) en un nombre 
fini de points. Donc la proposition suivante est bien plus forte. 

Désignons par D(a, b) l’espace des fonctions définies sur [a b], conti- 
nues à gauche (au point a à droite) et présentant un nombre fini de sauts, 
et par C(a, b) l’espace de toutes les fonctions continues sur [a b]. Il est évi- 
dent que les trajectoires w”(f) appartiennent à D(0, 1). On sait par ailleurs 
(cf. [11] chap. 13) que la trajectoire w°(f) appartient presque sûrement à 
C(0, 1). Par souci de simplicité, on peut admettre que toutes les trajectoires 
w(t), et partant la trajectoire w°(f), sont contenues dans C{(0, 1) (cf. [11}). 
Comme C(0, 1)CD(0, 1), il s'ensuit que (D(0, 1), ob), où op est la tribu des 
sous-ensembles cylindriques *) de D(0, 1), peut être considéré comme 
l’espace échantillon **) des processus w" et w°. 


THÉORÈME 3 (théorème limite fonctionnel pour les processus empiri- 
ques). Soit f une fonctionnelle définie sur l'espace D(0, 1), telle que 

1) f(w”") et f(w°) soient des variables aléatoires (c'est-à-dire que f(y) soit 
une application mesurable de (D(0, 1), ob) dans (R, S)) ; 

2) f{y) soit une fonctionnelle continue aux « points » de l'espace 


*) C'est-à-dire des ensembles de la forme {y (1)€B1, . . ., Y({m)EBm}, Où Bi, . . …, Bm SONt 
des boréliens. 

**) (Do, o) est l'espace échantillon du processus #{#) si la distribution de £ est définie sur 
lui, si bien que les trajectoires £{f) sont contenues dans Ds. 
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C(0, 1) pour la métrique uniforme, c'est-à-dire que f{y.)—f{>) pour n—, 
pourvu que yEC(0, 1) ef QÜn, y) = UP La) — y(0l—0. 
stsi 


Si ces conditions sont remplies, alors 
f(w") = f(w°). 
Si la fonctionnelle f est continue pour la métrique uniforme en tout point 
yED(0, 1), {a condition 1) est automatiquement réalisée. 


Il est évident que la fonctionnelle U envisagée ci-dessus remplit les con- 
ditions du théorème, de sorte que pour 7-0 


U= sup w°(f). 


Osrsi 


Puisque la distribution du second nombre de cette relation peut être trouvée 
sous une forme explicite (cf. par exemple [5], [75]) : 


2 
P( sup w()>z2) = e" x, 
Os<rs<i 


on obtient ainsi une expression approchée de la distribution de U. 

Dans les paragraphes suivants, le théorème 3 est utilisé pour calculer la 
distribution limite d’autres statistiques. 

La démonstration du théorème 3 est reportée à l’Annexe II. 


$ 7. Distribution limite des statistiques du premier type 


On rappelle qu’une statistique du premier type est une statistique S,(X)= 
= G(F3), où la fonctionnelle G(F) = A([g(x)dF(x)). Autrement dit 


s00 = (Den). 
is 


Nous avons vu (théorème 3.1) que si XE Fo et si À est continue en a = 
= {20 dFo(X), alors S, — A(a). 
P.5. 


THÉORÈME 1. Si XE Fo, h est dérivable au point a et |g?(x) dFo(x)< ©, 
‘ alors 

Va(Sa(X) — h(a)) = h'(a)£, 
où Edo, Po. à désigne la distribution normale de paramètres (0, o?), et 
d = ((g(x) — a) dPo(x)). 
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DÉMONSTRATION. Mettons la M Sn(X) sous la forme 


(a+ À LS Duo - |). 


où, en vertu du théorème limite central (cf. [11]), 


en 1 to ne a) e Po.o?; 


ns 
= E&gGu) — a) ={@Gx) — a) dx). 


Il reste à appliquer le troisième théorème de continuité pour b, = 1/Vn. 
On aura parfois intérêt à étudier les fonctionnelles du premier type sous 
la forme G(P) = h( le)d(F — Fo)). Il est évident qu'elles sont justiciables 
de tout ce qui précède, à la seule différence qu’il faut poser a = 0. 
Citons un analogue du théorème 1 pour le cas où la fonction g =(g1, … 
5) est vectorielle (c'est-à-dire que G(F) = = h(fa(dF (x), 
. [8 G)dF()). 


THÉORÈME 1lA. Supposons que S(X) = G{(F3), h(t) est dérivable au 
point a = [e(x)dFo(x) et la matrice des moments d'ordre deux 0? = No:;l = 
= E(gGu) — a)/(g(x1) — a) est finie. Alors 


C0 — AG » Hh'Q) = >, = & ) 


jm] 
où E = (h,.. + JE do. : 


Si Hh'(a))! = 0 presque sûrement et la matrice des dérivées secondes 
, NX 1 9 
h° (0) = En h(?) 


| existe au point a, alors 


PRO 
Otôt 


(SCA) — h(an = + Eh" (AT = 


Pour prouver le théorème 1A, il faut se servir du RTE de continuité 
5.3A et du théorème limite central multidimensionnel en vertu duquel 
n 


7 21e) — a)=£ (cf. Annexe V). 


Le théorème de la distribution limite de S,(X) s’énonce exactement dans 
les mêmes termes lorsque la fonction h, donc la statistique S,(4), sont des 
vecteurs. Le lecteur aura la partie belle de produire l’énoncé et la démonstra- 
tion à l’aide du théorème 5.3B. 
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EXEMPLE 1. Supposons que X € P, et que Po est telle que Ex1 = &æ>0, 
Vx1 = d?'<o. On demande la distribution limite de la statistique S = 


= ]/x È = 2) . Les conditions du théorème 1 sont visiblement 
im] 

remplies pour A(t) = 1/1, g(x) = x, et de plus a = a, o° = d?, h(a) = 

l/@, h'(a) = — 1/a°. D’après le théorème 1, 


(S — 1/a)Vn = -— E/o?, EE, 


de sorte que 
ù (S — 1/a)Vn6E Bo d/at. 


EXEMPLE 2. Trouver la distribution limite de la statistique 
n 


si Ex1 = a, Vx1 = d? et Exf< «. (Nous savons déjà que + d? en vertu 


du premier théorème de continuité.) On peut déterminer directement la dis- 
tribution limite à l’aide des représentations 


Se 
n 


D - a) - G - a), 

‘51 

(2 — den = LS Ie - oÿ - de - VnG - 0°. 
Crur 


Mais nous allons nous servir du théorème 1A. Aux termes de ce dernier 
nous devons poser 


G(F) = [x — a) dF(x) — ([x dF(x) - a)’, 
si bien que g1(x) = (x — æ)°, g2(x) = X, (1) = h — (2 — œ)”. Comme 
Gh(a) _ , h(a) 

dti ? dt 
au point a = (d°, @), il vient 
(S° — d'yn = +, tEbov, v° = Elu - a) - d. 

EXEMPLE 3. Statistique x°. En conclusion de ce paragraphe on se pro- 
pose d'étudier une statistique qui se rapporte aussi bien au premier qu’au 


deuxième type. 
Considérons les statistiques construites à l’aide des fonctionnelles de la 


dE G(F) = h(fs dF. @) 


= 0 
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où g est une fonction à variations bornées sur un intervalle [a b] tel que 
F(a) = 0et F(b) = 1 (a et b peuvent être infinis). Puisque | dF = g(b)- 
— le dg, la fonctionnelle G(F) sera continue pour la métrique uniforme 
si seulement la fonction h est continue. Il est clair que cette classe de statisti- 
ques est l'intersection des classes des statistiques du premier et du deuxième 
type. 

Ceci est valable aussi pour le cas où g est une fonction vectorielle de 
composantes g; à variations bornées. 

Considérons maintenant la partition de l’axe réel (l’espace 7) en inter- 
valles disjoints A1, ..., À, et posons »; = nP;(Ai), pi = Po(A:i) (Po est la 
distribution associée à Fo, de sorte que XE Po). On appelle statistique x? = 
= x/(X), la statistique 


ue (oi — np) 
00 = DT 
iml 
Il est évident que c’est une statistique du deuxième type, car elle est asso- 
ciée, au facteur multiplicatif #7 près, à la fonctionnelle 


— (PA) — Po(A)}? 
G(F) = GP) = >, LEO. 
an Po(A:) 


Pour représenter x*(X) comme une statistique du premier type, considé- 
rons une fonctionnelle (2) 


G(F) = h({ed(F - R)), 


r 


où A(u) = >; ufet la fonction vectorielle g a pour composantes 
j=i 


1/ Vp; si XEA,, 
a) = {o sinon. 
Le dh(0) _ } 2h) _ 5 (5. 
Vu que la fonction k est dérivable, — ss 0, ou 26 (ôÿ est le 


symbole de Kronecker), en posant S,(X) = G(F?), on obtient 


£ 2 
nSa(X) = >| (+ = pi) : | = x (x. 


j=i Vp; 
Si XYE Po, il résulte de la deuxième partie du théorème 1A que 


D = LE G) 
L 
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Où Ë£ = (1, ..., £) est un vecteur (imite pour ne 15 ne 
= Vnpi 
. PR LA ) istribué suivant la loi normale, de moyenne nulle et 
NV APr 


de matrice o? = lo;;l des moments d'ordre deux, 
oÿ = Ebt = E(giGa) — Vpi Xgx) — Vp;) 

(de la définition de g,, il s'ensuit que Eg{x1) = Vp;). Comme g{x)g{x) = 
= 0 pour i # j, et P(gx1) = 1/p)) = p;,, P(gÂx) = 0) = 1 — p,, il vient 
où = ôÿ — Vpipi. 

Voyons maintenant de quelle forme est la distribution du second mem- 
bre de (3) (Cest-à-dire la distribution limite de x?(X)). 


Considérons une transformation orthogonale de R”’ de matrice C et le 
vecteur 


n = EC. 


Le vecteur n est, comme le vecteur £, distribué suivant la loi normale. En 
effet, dire que £ est une variable aléatoire normale, revient à dire que sa 
fonction caractéristique est égale à (cf. [111) 


| 
T - £tonT 
Et =e ? , 


où 0° = lo;;l est la matrice des moments d'ordre deux. Or la fonction carac- 
téristique de 7 : 


1 
Ecin” = ELiCTET _ FE 3 tCTo?CrT 


est de la même forme, donc 7 est un vecteur normal, mais de matrice des 
moments d'ordre deux d? = C’o?C = lld;l, de sorte que 


di = Erin; = D Gionmcxj = 2 cu (Bt — Vpipk XCxj = 
k,I : 
= Zcuci — (2an Pi (224 Ne ). (4) 


Choisissons maintenant la matrice C de telle sorte que sa première colonne 
soit composée des coordonnées G1 = Vpr (ceci revient à fixer le premier 
Fr 


vecteur du système de coordonnées image, chose possible puisque 3} ci = 
[=] 


= > 1 = 1). Il est alors évident que le second terme de (4) est, en vertu de 
l’orthogonalité de C, égal à 1 sii = j = 1 et à 0 sinon. Ce qui signifie que 
du = En? = 0, dÿ = Enim; = ôy pour i>2 et donc que m est presque sûre- 
ment nul et les variables 2, . . ., 7, indépendantes normales de paramètres 
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(0, 1). La matrice C étant orthogonale, il vient 
ZE= Lm= Zn 
j=i j=1 : j=2 
x (2 = 2 nÿ- (S) 


Le second membre de (5) suit une loi appelée loi du x? à r — 1 degrés de 
liberté (cf. [11] ainsi que le $ 2.2). Nous aurons souvent affaire à cette loi 
dans la suite. 

La relation (5) sera prouvée au paragraphe suivant, ainsi qu’au $ 3.16 par 
des considérations plus générales. 

Dans les chapitres ultérieurs, on trouvera d’autres exemples d’applica- 
tion des théorèmes 1 et 1A. 


8 8* Distribution limite des statistiques du deuxième type 


On se bornera au cas où ? = R. La fonctionnelle G(F,) sera une varia- 
ble aléatoire si C’est une application mesurable de (D(— ©, æ), op) dans (R, 
8). Mais dans la suite il nous sera plus commode d'étudier des fonctionnelles 
définies non pas sur D(-—, æ) mais sur D(0, 1) (comparer avec le $ 6). 

A cet effet, construisons une application de D(-— , ) dans D(O, 1). 
Supposons que la fonction de répartition F0 associée à l'échantillon est con- 
tinue et monotone, ce qui assure l'existence de la fonction inverse F6 ‘(r) 
(qui est égale au quentile d'ordre de F0). Il nous suffit de considérer les 
valeurs de G(F) pour des fonctions F dont le support est contenu dans celui 
de Fo. A chaque fonction F associons la fonction 


Fe) = FF (9) = FF6 ‘(t). 
Il est évident que NC [0, 1], où N} est le support de F, de sorte que F€ 


€eD(0, 1) est une fonction de répartition. L'application réciproque de D(0, 
1) dans D(— ©, æ) est définie par 


F(u) = F(Fou)) m FFo(u). 


Associons maintenant à la fonctionnelle G la fonctionnelle G définie sur les 
fonctions de répartition HED(0, 1) (NS {0, 1]) par l'égalité 


G(H) = G{(HPo). (1) 
Linversion de cette formule nous donne 
G(P) = G(FF |). 


Ces égalités ramènent l'étude des fonctionnelles G(F) à celle des fonction- 
nelles G(H) définies sur les fonctions de répartition de D(0, 1). Ces égalités 


4— 4195 
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entraînent 
G(F:) = G(F3F0 ‘) = G(D»:), (2) 
où la fonction 
D = FiFo° (3) 


n’est autre que la fonction de répartition empirique d’un échantillon issu 
d’une distribution uniforme sur [0, 1]. En effet, en vertu du théorème 6.1, 
le processus nD,(t) = nF:(Fo '(t)) admet la même loi de probabilité que le 
processus de Poisson 7(Fo(Fo (t))) = xt), t[0, 1] (de paramètre x> 0), 
sachant que r(1) = 7. Ce qui nous donne, toujours en vertu du théorème 
6.1, la proposition annoncée. 

Dé ce qui précède il s'ensuit que l’étude de G(F3) se ramène à celle de 
la fonctionnelle G de la fonction de répartition empirique d’une distribu- 
tion uniforme sur [0, 1]. 

EXEMPLE 1. Soit G(F) = f, le quantile d’ordre p d’une fonction de 
répartition F. Alors G(H) = G(HF) est le quantile d'ordre p de la fonction 
de répartition HF, ou, ce qui revient au même (dans l’hypothèse où, pour 
simplifier, H est continue), la solution de l’équation H{(Fo(f)) = p, soit 
Fo (Hp). 

Ceci exprime que le quantile empirique t, = G(F;) = G(D:) (cf. (2) 
et (3)) de l'échantillon XE Fo n’est autre que la valeur de la fonction F5 ! 
du quantile empirique 7; = (Dh) ‘(p) d'ordre p d’un échantillon Y de dis- 
tribution uniforme. 

Si l’on réussit donc à trouver la distribution limite de 7», on pourra 
déduire celle de #, grâce aux théorèmes de continuité. 

EXEMPLE 2. Considérons la fonctionnelle G(F) = sup  |F{t) - 

—m<f<o 


— Fo(t) |. Dans ce cas 
G(H) = G(HR) = sup | HEG)- F0) | = Su, | H(u) - u|, 


de sorte que : 
G(Fr) = G(D;) = sup | DA(u) - u|, 
u€[0, 1] 


et aux termes du $ 6, la distribution de la statistique G(F;) ne dépendra pas 
de Fo si Fo est continue. De ce point de vue, on peut dire que la statistique 
G(F:) est invariante par rapport à une distribution continue de 
l'échantillon. 
EXEMPLE 3. La fonctionnelle 
GP) = | | FQ) - F1) | “dPo(r) 
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engendre aussi une statistique G(F:) invariante par Fo, puisque 
1 1 
G(H) = | | H(u) — ul|“du G(F:) = ( | Da(u) — u|“du. 


0 (4) 


EXEMPLE 4. Considérons la fonctionnelle 


: (A;F — A;F) 
cs AP  ? 
j=i 
où A;F sont les accroissements de la fonction F sur les intervalles A; = [4, 
t;+1[ de partition de la droite réelle. Il est évident que nG(F3) n’est autre que 
la statistique x? traitée dans l’exemple 7.3 comme une statistique du premier 
type. 
On a e | 
2 h : (A;HFo — A;Fo) 
Gun = our = DORE SR 


j=1 
où 
A;HFo = H(Pot;+1)) — H(Fo(t)) = ô;H, 


ô;H sont les accroissements de FH sur les intervalles ô;=[7;, 7;+1[, avec 7; = 
= Fo(t). En désignant la longueur d’un intervalle 6; par la même lettre 6, 
on obtient donc , 
G(F3) = G(FaFo) = G(D:) = >; (D — 6) /6;. 
j=i 

Le dernier membre est la statistique n x? construite au vu d’un échantil- 
lon Y de distribution uniforme avec la partition {ô;}. Ceci exprime en parti- 
culier que dans l’exemple 3 du paragraphe précédent on aurait pu se borner 
à l'étude d’une fonction de répartition uniforme Fo, bien que la statistique 
x? ne soit pas invariante par Fo. 

Sans restreindre la généralité on peut donc admettre que la fonctionnelle 
G(PF) est définie sur D(0, 1) et que For) = t, t€[0, 1]. Le passage aux fonc- 
tionnelles « primitives » qui se réalise à l’aide des formules (1) et (2) sera 
illustré dans des exemples ultérieurs. 

Pour pouvoir déterminer la distribution limite des fonctionnelles du 
deuxième type G(F3), il faut, comme dans le paragraphe précédent, assujet- 
tir les fonctionnelles à des conditions de régularité. 

Posons pour simplifier Ixl = SUP. | x) |. 

st's 


DÉFINITION 1. On dit qu’une fonctionnelle G(F) est k fois continüment 
dérivable en un point Fo s’il existe une fonctionnelle g(Fo, v) qui pour toute 


"La 
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fonction veC(0, 1) et toute suite de fonctions v,.€D(0, 1) telle que im» — 
— yl-0 avec À, vérifie les relations 


G(Fo + hvx) — G(Fo) 
= #$—————< 
h 


g(Po, Va) A g(Fo, y). 


KA 8 0» v), 
(4) 


La dernière relation exprime de toute évidence que la fonctionnelle g(Fo, 
v) appelée dérivée de G d'ordre k dans la direction de v, est continue pour 
une métrique uniforme dans C(0, 1). 

REMARQUE I. On rappelle que par Fo on entendra partout une fonction 
de répartition uniforme sur [0, 1]. 

Montrons que dans l'exemple 1, la fonctionnelle G{F) = F7 ‘(p)est con- 
tinüment dérivable au « point » Fo(f) = £, tEf0, I]. 

En effet, par définition 


G(Fo + hv) = maxi{f : Foft) + hn(t)<p}. 


Cette fonctionnelle étant continue pour la métrique uniforme au point Fo, 
on peut poser G(Fo + hw) = p + 6, où ô = &(h)—0 pour h—0. Par ail- 
leurs, de la relation y, — vl—0, veC(0, 1), il s'ensuit que | vx(p + 6) — 
— w(p)| = r(h)-0 avec h. Comme Fo(p + 6) = p + à, pour t=G(Fo+ 
+ pm) = p + à on obtient 


Fo(r) + ht) = p + à + hp + 6) = p + à + h(nG) + 7r))<p, 


où |7| <1i. On obtiendrait l'inégalité contraire en se servant du fait que 
Foft + 0) + hvh + 0)2p. D'où il résulte que à = — A(m:(p) + r1r{(h)), 
| n | SI, de sorte que 


G(Fo + hv) — G(Fo) _ 56 a. 
SRE SE 


La dérivée g(Fo, v) est donc égale à 
8g(Fo, v) = — v{p). « (5) 
Dans l'exemple 2, la fonctionnelle G(F) = sup |F{t) — Fo(t)| est, 
#60, 1] 


de toute évidence, aussi continüment dérivable suivant n'importe quelle 
direction, puisque G(Fo) = 0, 


G(Fo + nv 
g(Fo, v) = ee = sup |v(r) |. 
1€R, 1] 
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l 
Dans l’exemple 3, la fonctionnelle G(F) = | | Ft) — For) | KAR(t), où 
0 
R(#) est une fonction quelconque à variations bornées, est (4 fois) continü- 
ment dérivable suivant n’importe quelle direction, puisque 
| 


= | | v(r) | “GR(r). 
(4) 
Idem pour la fonctionnelle de l’exemple 4 


D (A;F — AFŸ 
GE = DIR o) 
j=i 


g(Po.v) = 2 0 


h 


qui est deux fois continüment dérivable, puisque 
r 


__ GR + hv) | (Av) 
g(Fo, v) = ns DR 
hk j=i 
Les généralisations des fonctionnelles des exemples 2, 3 et 4 sont les 
fonctionnelles de la forme G(F) = G1(F — Fo), où la fonctionnelle G: est 
homogène au sens que Gi(hv) = h*G(v). Il est évident que ces fonctionnel- 
les seront toutes dérivables. 


Formulons maintenant le théorème fondamental relatif aux fonctionnel- 
les du deuxième type. Supposons comme toujours que Fo(t) æ #, tE[0O, 1]. 


THÉORÈME 1. Si XE Po et G(F) est une fonctionnelle (k fois) dérivable 
au sens de la définition 1, alors 


[G(F?) — G(Fo}n“? = 8(Po, w°), 


où w° est un pont brownien. 


DÉMONSTRATION. On sait (cf. par exemple [S]) que les compacts de 
l’espace C(0, 1) des fonctions continues muni d’une métrique uniforme se 
décrivent comme suit. A toute fonction #{A)>0, w(A)—0 pour A—0, et à 
un nombre N>0 correspond le compact 


K = K(e, N) = {(yeC(0, 1) : wa) <vw(A), | »(0) | SN}, 
Où wa(y) est le module de continuité de y : 


@a(y) = sup {|y(r) — y) |. 


{-#,s4 
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Désignons par K}, l’ensemble 
Ki = {yED(0, 1) : wa(y)< (A) pour tous les A>h ; | y(0)| SN]. 


On appellera les ensembles K, « précompacts » (ce terme recouvre un autre 
sens en analyse fonctionnelle) engendrés par le compact K. Il est clair que 


Kn CKn pour H<h, (N Kin = K et que K:C(K)°%, où (K)° est un 


ns] 
e-voisinage de X. 
Montrons maintenant que pour tout ô>0 donné, il existe un compact 
K (donc les précompacts K, engendrés par K) et une suite À,—0 pour n— 00, 
tels que 


lim. sup P(w" € Kr,)<6. (6) 


En effet, le théorème 6.3 nous dit que pour toute fonctionnelle f conti- 
nue pour une métrique uniforme, on a /(w”") = f(w°), où w"(t)=vVn(F;(t) — 
— 1), 1€[0, 1]. Comme wA(y) est une telle fonctionnelle, il vient wa(w") = 
= wa(w°). Or wa(w°) .. 0 avec À, puisque les trajectoires w° sont presque 


sûrement continues. Donc, pour € et Ô donnés et pour A assez petit, on a 
P(wa(w°)>e)<6. 


En admettant, sans restreindre la généralité, que € est un point de continuité 
de la distribution wA(w°) on trouve 


lim.sup P(wa(w")> €) <ô. 


Soient maintenant 10 une suite et A4i0 des nombres tels que 
lim. sup P(os(Ww")>e)<6/2** 1, 


no 
Formons la fonction g(A) = & pour A€[A + 1, Alf. Il est clair que (A) —0 
pour A—0 et l’on peut envisager les précompacts K, construits à l’aide de 
la fonction &. Pour tout £< , on a alors 


k+1 
lim. sup P(w" € K4)< lim. sup 2} P(wa{w")>6)< 
no n — © j=l 


K+1 
< >, lim. sup P(wa{w")> 6) < 6/2 
j=i 


no 


(cette inégalité peut être mise en défaut pour £ = ). Cette relation exprime 
que pour tout à il existe une suite h,—+0 pour 7—+ telle que soit réalisée 
(6). Considérons maintenant la quantité 


[G(F:) — G(Po)n*? = g(P, w”) + Ha(w”), 
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où H,(x) = [G(Fo + x/Vn) — G(Po)]n“’? — g(Po, x). Puisque g(Fo, w")= 
= g(Fo, w°) en vertu du théorème 6.3 et de la définition 1, il nous suffit 
de nous assurer que 


Ha(w°)20. (7) 


Remarquons que pour tout compact A CC(0, 1) et toute suite A; —0 
pour 7—+, On a 
sup | Hs(x) | —0. (8) 
xeD(Q, 1) 
xE(Kphn 
En admettant le contraire on arrive à établir l’existence d’une suite 
X1€D(0, 1) telle que 1x, — xl—0, xeC(0, 1), lim. sup | H;(x) | >0, ce qui 


contredit la dérivabilité de G. 
Les relations (6) et (8) entraïînent 
P(|Aw")| >) <P(| Hw')| >e, w'ek,,) + P(w"ékr,), 


lim. sup P(| H(w")| >e)<ô. 


Ce qui prouve (7) et avec elle le théorème, puisque 6 est arbitraire. € 
Poursuivons l'étude d'exemples. 
Soit 7, un quantile empirique d’ordre p pour un échantillon Y issu d’une 
distribution uniforme sur [0, 1]. La relation (5) et le théorème 1 nous don- 
nent alors 


(no — pNn = - w°(p) à w° (p). 
Nous avons établi que dans le cas général, lorsque Fo est une fonction de 
répartition continue arbitraire, on a 
Fr = Fo (mp). 
Si l’on applique maintenant le troisième théorème de continuité, on obtient 
le 


COROLLAIRE 1. Si XhEFo, Fo est continüment dérivable en ÿ, et 
S(P)= Fo($p)>0, alors 
(Go — En = w°(p}/f(). 
On remarquera que les conditions de ce corollaire expriment la dérivabi- 
lité continue de F6 ! au point p : 
| 1 


— ] | RE = 
GO) = EE) F6) 
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Comme Ew°(p) = 0, Vw°(p) = E(w(p) — pw(l)} = E(wG)( — p) + 
+ p(w() — wG))) = pA — p} + p'(1 — p) = p(1 — p), l'assertion de 
ce corollaire devient 


Go — FR € do, à, 0° = p(l — p}/F{Eo). A 
Dans l'exemple 2, la fonctionnelle G(F) = sup |F{r) — Fo(t)| est 
dérivable, donc en vertu du théorème 1 1 
G(F:n = sup |w°Q|. 


La distribution de 7 = sup |w°(r)| a été explicitée dans [75] : 
, Os1SI 


P(n<z) = K{(z) = 1 +2 S (= 1) e 77, 
K=! 


La fonction K(z) s’appelle fonction de Kolmogorov. 
Nous avons vu dans le cas général que lorsque Fo est une fonction de 
répartition continue arbitraire, la distribution de la statistique 


D(X) = sup | F0) — For) | 


est la même pour le cas où Fo(t) = 1, t€[0, 1]. On obtient ainsi le 


COROLLAIRE 2 (théorème de Kolmogorov). Si X E Fo et Fo est continue, 
alors 


Vn D(XN) € K. 


Cela exprime que le désaccord maximal D(X) entre la fonction F,(#) et 
la fonction Fo(f) est de l’ordre de 1/Vn et peut être approximativement mis 
sous la forme D(X) = n/Vn. 

Dans l’exemple 3, nous avons vu que l’autre statistique (qui est souvent 
désignée par w°) 

&? = Î (Fa) — Po(t)} dPo(t) 


est aussi invariante par Fo. Le théorème 1 entraïne le 


COROLLAIRE 3. Si XE Fo et Fo est continue, alors 


1 
no? = | [w°(O]'at. 
0 
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1 
La distribution ({w QT at a aussi été explicitée et tabulée au même 


0 
titre que X(z). Appliqué à l’exemple 4, le théorème 1 nous donne le 


COROLLAIRE 4. Si XEFo et Fo est continue, alors 
x? = > (ô;w°)"/5;, 
j=1 


où ôj, j = 1,2,...,r, représentent la partition de l'intervalle {0, 1] définie 
dans l'exemple 4. 


Si l’on pose £ = (£1, ..., E), E£j = ô;w° V6; et que l’on se serve du 
fait que ô;w° = ô;w — w(1)6;, où w est un processus wienérien standard, 
on obtient: 

x? ed D #7, LE #0, o?, 
j=i 


où la matrice o? = Mol est la même que dans l’exemple 7.3 puisque 


ô;jw° = ô;jw Gus (Z&xw)ô; = © KV, 
k K=] 
Gkj = Ôkj — 0j, E(ôkw) (ôWw) = ôxrôk, 
Oùÿ = _EG:w°)G;w°) = 1 D ariarjôx = 


V6:6; V&ë 


Km]! 
__1 


(ôiôi — Giô;) = ôÿ — Vi; 


(ôs est le symbole de Kronecker). En reprenant les raisonnements de l’exem- 


ple 7.3, on trouve que ÿ £? suit une loi du x? à r — 1 degrés de liberté. 
j=i 
Signalons en conclusion de ce paragraphe que les statistiques qui présen- 
tent de l'intérêt ne sont pas censées être du premier ou du deuxième type. 
n—1 


Il n'est qu’à citer la statistique S(X) = 5; xx +1 ou les statistiques S liées 


im | 
aux fonctionnelles G,(F), où G, dépendent « essentiellement » de 7 (pas 
uniquement à travers l'échantillon), tel le terme maximal de l'échantillon 
ordonné S(X) = xm = fi-1/", etc 
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$ 9*% Remarques sur les statistiques non paramétriques 


La statistique #, de l’exemple 8.1 se distingue essentiellement des statisti- 
ques des exemples 8.2, 8.3 et 8.4 par le fait que sa distribution limite est liée 
à la fonction de répartition Fo (comparer avec le corollaire 8.1). 

DÉFINITION 1. On dit qu’une statistique S(X) est asymptotiquement 
non paramétrique si S(X)E Q lorsque 7, et Q ne dépend pas de la dis- 
tribution de X, c’est-à-dire ne dépend pas de F0 si XE Fo. 

Signalons que la fonction S peut fort bien dépendre de F6. Le terme 
« non paramétrique » n’est pas très heureux ; il est cependant passé dans 
l'usage (son emploi est justifié lorsque la fonction Fc appartient à une 
famille paramétrique : la distribution Q ne dépend pas d’un paramètre et 
en ce sens est non paramétrique). On se servira parfois du terme anglais dis- 
tribution free. 

Nous avons vu aux $8 6, 7 et 8 que les statistiques Vn U(X), Vn D(X), 
nw?(X) et x°(X) sont asymptotiquement non paramétriques. 

Le théorème 6.1 nous permet maintenant d’introduire une notion plus 
étroite. Dans ce théorème nous avons établi que nF;(r) est distribuée comme 
7(Po(t)), où n(u) est un processus poissonnien conditionnel de paramètre 
arbitraire À > 0 sachant que n(1) = 7 (cf. $ 6), c’est-à-dire un processus indé- 
pendant de Fo. Si donc la statistique S est construite comme une fonction- 
nelle G(F:) (ou G(Fx: — Fo)) invariante par un changement du « temps » 
t dans l’argument, sa distribution sera indépendante de F6. Exemple : 


] 


D = sup | F3(0) — RO] = sup [n(FoQ)) — nFoG)| = 


d 
= À sup nt) -un|. (1) 
M  uelo, 1 

Ce qui précède nous inspire la 

DÉFINITION 2. On dit qu’une statistique S(X) est non paramétrique si 
sa distribution est indépendante de F0 (X E Fo). 

Les relations (1) expriment que la statistique D est non paramétrique. 

Nous avons signalé également (cf. corollaire 8.3) que la statistique w°, 
tout comme D, ne dépend pas de Fo, donc est aussi non paramétrique. 

Etant asymptotiquement non paramétrique, la statistique x? ne sera pas 
non paramétrique. On peut s’en assurer directement sur un exemple dans 
lequel on posera r = 2 et n = 1. 

On obtient d’autres exemples de statistiques non paramétriques en con- 
sidérant les valeurs Fat), où f, est le quantile d'ordre p, de sorte que 
nFn(Eo)= 1) (cf. $ 6). Le nombre r; d'éléments de l’échantillon X infé- 


rieurs à x; (ce nombre est dit statistique de rang) est aussi une statistique 
non pararmtétrique. 
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Les statistiques non paramétrique et asymptotiquement non paramétri- 
que sont très utiles en théorie des tests des hypothèses statistiques (voir cha- 
pitre 3), puisque leurs distributions, qui sont nécessaires à la construction 
des tests, il suffit de les calculer une seule fois (par exemple pour une fonc- 
tion de répartition uniforme F0) et de les appliquer ensuite à toutes les 
autres distributions de l’échantillon. 


8 10* Distributions empiriques lissées. Densités empiriques 


Au $ 2 nous avons associé à chaque échantillon X une distribution P, 
que nous avons appelée empirique et qui est la somme de 7 distributions 
concentrées aux points x1, . . ., Xn. Cette distribution jouit de remarquables 
propriétés qui ont été décrites dans les paragraphes précédents. Mais la 
façon dont nous avons défini P, n’est pas la seule possible et, dans bien des 
cas, pas la plus naturelle. Il existe d’autres procédés de définition de P, qui 
non seulement conservent les propriétés des distributions empiriques étu- 
diées plus haut, mais en font apparaître de nouvelles. 

On se bornera à discuter la nature des distributions placées aux points 
x. Dans la définition que nous avons donnée de P;, c’étaient des distribu- 
tions dégénérées L,,(B), de sorte que 


P,8) = À DA). () 


ER | 


Dans ce cas la distribution empirique est singulière pour la mesure de 
Lebesgue et n’admet donc pas de densité. Ceci peut être gênant dans les cas 
où l’on sait a priori que la distribution initiale P possède une densité. Dans 
ces conditions, il serait souhaitable d’avoir affaire à une distribution empiri- 
que P, régulière telle que P;—P et f;—f, où f, et f sont les densités respecti- 
ves de P, et P, la convergence étant entendue à tous les sens définis 
ci-dessus. 

Ceci se réalise sans peine de la manière suivante. Soit Q une distribution 
admettant une densité. Posons 


rw =! Do(2r*). Q) 


1=) 
où BE x est l’ensemble des points ye”"tels que x + yheB ; h;—0 
pour 710. 
Il est évident que P*#*(B) n’est autre que la « somme moyenne » des dis- 
tributions Q réduites aux dimensions h, et placées aux points x;. La défini- 


tion (2) généralise (1). La formule (1) se déduit de (2) pour Q = L, puisque 
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1,,(B) = Lb(B -— x) = LS =) pour toute suite {h,). 


Signalons les propriétés ee de la distribution P?* que nous appel- 
lerons distribution empirique lissée. 

1. La distribution P;" est le produit de convolution des distributions P, 
et Q(B/h,), et 


P,(B) = EP:'(B) = (e( 2 )P) 


le produit de convolution des distributions P et Q(B/h,). Autrement dit, 
P,(B) est la distribution de la variable aléatoire £ + h;:n, où EP, nEQ. 
Les théorèmes de continuité entraînent que 


P, = P lorsque A,—0. (3) 
Rappelons que la distribution P, était justiciable de l'égalité 
EP, = P. 


2. Si la distribution P est absolument continue pour la mesure de Lebes- 
gue, la distribution P; satisfera des théorèmes analogues à celui de 
Glivenko-Cantelli. En effet, dans ce cas la convergence (3) équivaudra à la 
convergence uniforme des distributions sur tous les intervalles. En se bor- 
nant, par souci de simplicité, à la dimension un, on aura (Fr C0), Ex) 
etQ(x) étant les fonctions de répartition respectivement des distributions 
P,; , P, et Q) 


Fa (x) — F(x) = (o(=) dFa(y) — F(x) = 


B - 
h 


ne [roëo(= 7) — Fx) = Rx) — FX) - 


- [ (F0) - F0))40(<5 2). 


Comme déjà signalé, la différence F,(x) — F(x)—0 uniformément en x, tan- 
dis que l'intégrale du dernier membre, elle, est < sup | F0) — FV)|, 
quantité qui tend presque sûrement vers (. 

3. L'avantage de P** sur P,, avantage qui du reste a motivé l’introduc- 
tion de cette distribution, est qu’elle admet la densité 


| X — X ] X — y 
fo = sr ZA( Es) = +f(s)éo © 
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(g(x) est la densité de la distribution Q) qui pour tout x tend vers la densité 
J{x) de P lorsque n— et h, 0. 

Avant de passer à la démonstration de cette assertion, on remarquera 
que pour obtenir de bons résultats sur la convergence de f,(x) vers f(x), il 
faut se servir de densités g régulières et bornées. Si par exemple on choisit 
des densités g qui ne soient pas bornées, l'estimation f(x) de la densité 
régulière f(x) sera mauvaise. Comme le choix de g se trouve à notre discré- 
tion, nous pouvons admettre qu’au moins est réalisée la condition suivante : 


d = {q(rdt <o. (5) 


THÉORÈME 1. Si q vérifie la condition (5), f(x) est continue et bornée, 
h,—0 pour n—, de telle sorte que nh,-—, alors 


ax) = fn) + EQO/V nl , (6) 


où f(x) est une fonction non aléatoire 
jan = Ra meet)» L f(sr ma - 


= (gUYUx - zh)dz- f(x) (7) 


pour h, 0. Les variables aléatoires ÿ,(x) sont asymptotiquement normales, 
Ta(X) 6 Bo, (x) o°(x) = f(x)d°. 


DÉMONSTRATION. La somme de (4) est une somme de variables aléatoi- 
res indépendantes équidistribuées dans un schéma de séries et de plus 
fn) = Ef,(x) admet la représentation (7). Posons 


= _. (=) - he) 


Alors . 
1 
n — Jn _ ND E nn — O, 
fn) — fx) FE 2 je 7 
1 1 X — X 
E£i 2 = rer _ to]. 


1 X — X 1 2{/X -t u 
SL 2 NT MS EP O0 


= [a GX — zh)dz-fu)|q"(a)dz = Sd". (8) 
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Donc, E£i ,"vf(x)d?/n si f(x)>0. La condition de Lindeberg s'écrit ici 
nE(£ï. ns; | &r. x > e) +0 (9) 


pour ñn—+0 et quel que soit e>0. Comme h,f2(x)—0 et n£f, , <2(q°((x — 
— x1}/hn) + Afè(X)), pour que (9) soit réalisée il suffit que 


1 2/X- x). X — Xi L 
E(+ P(2 2) : a( )> e Val ) 0. 


Cette relation est satisfaite, puisque son premier membre est égal à (compa- 
rer avec (8)) 


| q'(zYx — zh) dd < c | q?(z) dz—0. 
a) > Van A CES CE 


Donc, la variable aléatoire f(x) = >; &x, n est justiciable du théorème 
K=1! 


limite central. Ce qui prouve le théorème 1. < 
Dans ce problème il est naturel de se poser la question du choix optimal 
de h, et de la fonction q(t). La réponse à cette question dépend de la régula- 
rité de f(x). En effet, supposons par exemple que /{(x) n’est strictement posi- 
tive que sur un intervalle fini, est bicontinüment dérivable et que & = 
= {u ” (x))/dx est fixe. Supposons par ailleurs que lzq{(z)dz = 0 (c'est tou- 
jours le cas pour des g(z) symétriques) et que D? = (z?q(e)dz< œo. Alors 
fa) = fax — zh)dz = 
z'ha 
= (at) Lu — Zhaf" (9) + + 


f(x) + ot) | Z = 


2 L À 
= f(x) + LR (ac: + o(h?). 


On voit que 


__ D'haf" (x) Fn(x) 2 
fn — JO = 5 — "+ “+ ofhr), 


(10) 


2pL2f» 
Eye - JuoP = (PE) + A + tré) 


La minimisation de la dernière expression par rapport à h, et g nous 
donne, en vertu de la normalité asymptotique de ÿ,(x), la plus petite « dis- 
persion » de f,(x) autour de f(x). Mais les valeurs minimisantes de h, et de 
q dépendront de x par l’intermédiaire des valeurs inconnues de /{(x) et f” (x). 
Pour éliminer cet effet et obtenir une optimalité « en moyenne », il est natu- 
rel d'envisager l’intégrale 


(EL) - JC) dx (1) 
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D?hi 2 d? 
dont la partie principale sera égale à 5 ) pe + h. (on obtient ceci 
en supprimant ofh:) dans (10)). 


2 1/5 
Le minimum de cette expression est atteint pour À, = ( q ) 


nD° 
L'intégrale (11) sera alors égale à 


+ p"5(Dd?)"5n #5 + ofn"*5), (12) 


2 \2/5 ” 
fes - 100 = (DE) (LR + rovs &) + ot? 


EE Po, 1. 
Donc, la vitesse de convergence est ici de l’ordre de n * ?”* contrairement 
à celle des fonctions de répartition qui est de l’ordre de n ”!’?. Ce fait est 
logique, puisque dans l'estimation de la valeur /(x) ne participent, grosso 
modo, que les observations qui sont concentrées dans un voisinage décrois- 
sant du point x. 

L'expression (12) permet de choisir de façon optimale la fonction g(z) 
aussi, C'est-à-dire la fonction qui minimise Dd”?. En admettant, sans nuire 
à la généralité, que D = 1, on obtient le problème de minimisation de d? = 
= [g2(2) dz sous les conditions [g(z) dz = [2?q(2) dz = 1, [zq() dz = 0. 

Signalons que si f/ admet des dérivées continues d’ordre 2m > 2, on peut 
obtenir de plus grandes vitesses de convergence de la différence f,(x) — f(x) 
vers 0. Pour cela il faut se servir de distributions généralisées Q dont les 
« densités » g sont de signe + ou — et permettent de satisfaire les condi- 
tions |22" (2) dz = 1, |z/q(2) dz = 0 pour tous les /€[1, 2m — 1]. Dans 
ce cas, en reproduisant les mêmes raisonnements, on pourra obtenir une 

| nn Syag et — | 
vitesse de convergence de l'ordre den 4%#7+1=n 24m + 1) et qui 
sera d’autant meilleure que m1 sera grand. Cette circonstance s’explique par 
le fait que dans l’estimation des valeurs f(x) de fonctions /(x) plus régulières 
participent les éléments de l'échantillon qui sont situés dans des voisinages 
plus vastes du point x. 

D'autre part, on peut choisir les fonctions régulières g(z) de telle sorte 
qu’il soit possible d'estimer et la densité (x) et ses dérivées. On peut s’en 
assurer aussi à l’aide des raisonnements produits ci-dessus. 

Les fonctions f,(x) de forme (4) sont souvent appelées estimateurs de 
Rosenblatt-Parzen de la densité f(x), ou encore estfimateurs nucléaires de 
f(x). Les fonctions g(z) sont dites noyaux. On se sert souvent en pratique 
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des noyaux « rectangulaires », Cest-à-dire on admet que 


= fi si xl- 1/2, 1/2 
TRI oO ailleurs. 


On procède parfois plus simplement : on partage la droite réelle en petits 
ÿj 
Aha 
le nombre d'éléments de l'échantillon contenus dans A,. La fonction f(x) 
s’appelle histogramme de l’échantillon. On vérifie immédiatement que si 
f(x) est continue, l’histogramme /f,(x) convergera, comme la fonction (4), 

vers /(x) en probabilité si seulement h,—0 et nh,; +00. 


intervalles A, (de longueur h,) et on pose f,(x) = pour x€A,, où v; est 


CHAPITRE 2 


THÉORIE DE L'ESTIMATION 
DES PARAMÈTRES INCONNUS 


Le $ 2 passe en revue les familles paramétriques de distributions usuelles et leurs proprié- 
tés fondamentales. 

Les $$ 3 à 6 développent les principales méthodes d’estimations ponctuelles. 

Les $$ 7 et 8 discutent les diverses approches de comparaison des estimateurs. 

Les $$ 9 à 20 traitent des méthodes de construction des estimateurs optimaux (dans tel 
ou tel sens). Quatre directions sont dégagées : 

1) ($$ 9, 10, 11 et 20) Approches bayésienne et minimax de construction des estimateurs 
optimaux. Les $$ 9 et 10 sont accessoires et contiennent les définitions et les principales pro- 
priétés des espérances mathématiques conditionnelles et des distributions conditionnelles. 

2) ($$ 12 à 15) Construction des estimateurs optimaux (efficaces) exhaustifs et sans biais. 

3) ($$ 16, 17, 22) Construction des estimateurs optimaux (efficaces) à l’aide de l'inégalité 
de Rao-Cramer. 

4) ($$ 18, 19) Utilisation de l’invariance. 

Dans les $$ 21 à 29 on étudie les propriétés asymptotiques du rapport de vraisemblance. 
On applique ensuite ces propriétés pour établir l'optimalité asymptotique des estimateurs du 
maximum de vraisemblance. Les résultats des $$ 21 à 29 servent de base à la théorie des tests 
asymptotiquement optimaux, développée au chapitre 3. 

Les $$ 31 et 32 sont consacrés aux estimation: par intervalles. 


$ 1. Remarques préliminaires 


Nous avons déjà noté dans les paragraphes précédents que l’objet limi- 
nal des recherches statistiques est un échantillon 


Xn — (x, _. Xn), xXEŸ", 


issu d’une distribution P entièrement ou partiellement inconnue. La statisti- 
que mathématique traite traditionnellement deux classes de problèmes : 

1. Lestimation des paramètres inconnus. 

2. Le test des hypothèses statistiques. 

Les problèmes de la première classe se posent lorsqu’il faut, au vu d’un 
échantillon X = X,, estimer une caractéristique numérique inconnue 8 de 
la distribution P. Autrement dit, étant donné une fonctionnelle 


0 = 6(P) 


5—4195 
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de la distribution P, on demande une fonction d’échantillon (ou ce qui est 
équivalent une statistique) 


0 = OX Xa), 


qui puisse être utilisée à la place du paramètre 8. Nous avons vu dans le cha- 
pitre précédent que cela était possible. La statistique 8° s’appelle estimateur 
du parargètre 8. On conçoit aisément que le paramètre 0 admet une multi- 
tude d’estimateurs. Le théorème 1.3.1 suggère par exemple de prendre pour 
estimateur de la fonctionnelle 


6 = {g(x) dF(x) 


ë = LD et). 


im] 


la statistique 


On pourrait certes envisager d’autres estimateurs, par exemple 
P 


nr, 
L2 


3 
P= — —— >, su), 


jan+i 


où x, J = 1,..., n, sont les éléments de l’échantillon ordonné, etc. Pour 
8* on peut prendre aussi des valeurs ne dépendant pas de l’échantillon. On 
peut même poser 0* = 0, bien que cela ne soit pas toujours justifié et même 
mauvais si l’ensemble des valeurs possibles de 8 ne contient pas la valeur 0. 

Signalons au sujet de cette dernière remarque que souvent dans la posi- 
tion du problème d’estimation, on spécifie l’ensemble 6 des valeurs possi- 
bles du paramètre 8. Si, par exemple, l’on estime le taux 9 de minéral con- 
tenu dans du minerai, il est évident que 8€[0, 1]. 

Dans de nombreux cas, on sait à l’avance que la distribution P de 
l'échantillon X ne peut être arbitraire, mais appartient à une famille bien 
définie de distributions .# 

L'exemple 1 de l’Introduction est un problème d'estimation des 
paramètres. 

Les problèmes de la deuxième classe portent sur le test de telle ou telle 
hypothèse concernant la distribution inconnue P. On peut par exemple 
éprouver l’hypothèse que P est d’une forme donnée. A ce type de problèmes 
se rapporte l’exemple 2 de l’Introduction. 

Nous verrons ultérieurement qu’il n’y a pas de différence radicale de 
nature entre les problèmes de ces deux classes. 

Dans ce chapitre, nous indiquons les positions des problèmes et les 
méthodes de résolution qui sont étroitement liées aux résultats du chapitre 
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précédent et que l’on pourrait qualifier de « purement statistiques » à la dif- 
férence des méthodes générales de théorie des jeux qui seront développées 
à la fin de l’ouvrage (cf. avant-propos). 

Les approches purement statistiques expriment, dans une certaine 
mesure, le principe des méthodes de statistique mathématique. Historique- 
ment, elles ont pris forme bien avant les méthodes plus générales. Pour ce 
qui est de leur application, l’homme a dû probablement s’en servir explicite- 
ment ou implicitement tout au long de l’histoire de son savoir. 

Tout ceci justifie l'exposition séparée des méthodes purement statisti- 
ques, bien que certains aspects de cet exposé puissent être considérés comme 
des cas particuliers de concepts plus généraux. Nous mettrons en même 
temps en évidence l'incapacité de l'approche purement statistique à poser 
des problèmes plus précis. Ceci nous permettra de comprendre l’adéquation 
des autres points de vue. 


$ 2. Quelques familles paramétriques de distributions et leurs propriétés 


Considérons quelques familles de distributions dépendant de paramè- 
tres (familles paramétriques de distributions) qui se présentent souvent dans 
les applications et qui apparaîtront ultérieurement soit dans le cadre de 
l'exposé, soit comme illustrations de cet exposé. 

1. Distribution normale sur la droite. Par &,. nous désignerons une 
distribution normale de paramètres (œ, o°), C'est-à-dire une distribution de 
densité 


@ = 1 F2 
Pa, Ca X _ e 9 
oV2x 


de sorte que 
Pa.o(B) = |pao(x) dx. 


B 
Si ÈE Do. 1 et <kZ0 est un entier, il est évident que 
Eg* +1 = 0. 


En se servant du changement x = Vu , on trouve pour les moments d’or- 
dre pair 


k+1 k 
E£* = 2 (rte-#dr = [ue de = 2_r& + 1/2), 
Vz 
[) 


5* 
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où 


TO = [a te-idx (1) 


[a 
est la fonction gamma, l'A) = (À — 1)7(X = 1), (1/2) = Vr, de sorte que 
E£X* = (24 — 1)!! = (24 — 1)(24 — 3)...1 


On obtiendrait ce résultat en dérivant 24 fois la fonction caractéristique 
e”*’2 au point « = 0. 

2. Distribution normale multidimensionnelle. Pour .7 = R°”, le symbole 
b.. désignera une distribution normale dans R” d’espérance mathémati- 
que æ = (œ1,..., @m) et de matrice des moments centrés d'ordre deux o = 
= Tojl, i, j = 1,..., m. Si À, la matrice inverse de 0”, existe, la densité 
Pa. #(X) de la distribution .. sera de la forme (cf. [11]) 


Pa. #(X) = __s Exp (-36 — @)A(x — a). 


où x? est le vecteur transposé du vecteur x. On rappelle aussi (ce fait a déjà 
été utilisé au $ 1.7) que la fonction caractéristique de la variable € &,. 


est égale à 
Ee“®" = exp C4 _ L tr) 


où { = (ft, ..., (nm) est un vecteur de R”. 

3. Distribution gamma. Le symbole F,. \ désignera une distribution 
gamma de paramètres (æœ, À). La densité y, \(x) de cette distribution dépend 
des deux paramètres æ >0 et À>0 et vaut (cf. [11], $ 7, chap. 6) 

À 
œ 1 ,- 01 


a | - > 
EN e “, x > 0, 


0, x < 0, @2) 


Ya. XX) = 
où l'A) est la fonction gamma définie dans (1). La fonction caractéristique 
de la distribution gamma s'écrit ([11]) 


(etre \(x)dx = ( = ) . (3) 
[) 
Si ter, x, 0ona 
rt _ +t-1 ax, - À +110 - € TA +1) 4 
EE! = |" e” “dx TO) x |” dy TD .(4) 


0 


$ 2] QUELQUES FAMILLES PARAMÉTRIQUES DE DISTRIBUTIONS 69 


On obtiendrait le même résultat pour les : > 0 entiers en dérivant la fonc- 
tion caractéristique. En posant { = 1, 2, on trouve 


Et = Va, VE = Na’. (S) 


On voit sur les formules (3) et (4) que le paramètre « joue le rôle d’un 
paramètre d'échelle (ou de dispersion), de sorte que 


7/aETa, à si nETi:, à. 


Cette circonstance nous suggère d'étudier de nombreuses propriétés de 
la distribution gamma pour une valeur seulement de æ, par exemple pour 
æ = 1 ou œ = 1/2. La deuxième valeur est plus intéressante, car la distribu- 
tion l'1,2, x joue un rôle important en statistique mathématique et s’appelle 
distribution x°. 

4. Distribution x? à k degrés de liberté. C’est ainsi qu’on appelle la distri- 
bution H4 = li1,2, 4/2 pour k > 0 entier. Nous conserverons cette dénomi- 
nation de H4 pour £ > 0 quelconque. La fonction caractéristique de la dis- 
tribution H, est égale en vertu de (3) à 


Qi — 2ir)7 “2, 
Signalons les trois propriétés suivantes de la distribution H,. 


1) Si n: sont des variables aléatoires indépendantes de distribution Hi, 
1, ..., S, alors 


…. 
Il 


> nEHk, k = Ski. 
; ER | 


is] 


Cette propriété résulte directement de la forme de la fonction caractéristi- 
que de H,. 

2) Site. #, où &.. # est une distribution normale k-dimensionnelle 
de matrice des moments d'ordre deux non dégénérée, alors 


Q(E) = (£ — a)o”(E — a) EH. 


En effet, la fonction caractéristique de la variable aléatoire Q(E) est égale 


Eg'0® — Sera | EXP (- à Q(x)(1 — 2n)) dx1, - . .dXk. 


En effectuant le changement de variables x;V1 — 2it = y;, on obtient l’ex- 


pression 
V lo”? fe” + Q0) 


1 — 2j -k/2 
C0 or 


à 


dy... dyx = (1 — 2ir)7 “2, 
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c.q.f.d. L'indépendance de l’intégrale du premier membre par rapport au 
domaine d'intégration résulte de l’analyticité de l’intégrant et de sa décrois- 
sance rapide lorsque lyl— (cf. [11]). 

De ce qui précède il s'ensuit que la variable aléatoire 


x? = E? +... + EX, 


où £; sont des variables aléatoires indépendantes normales réduites, admet 
la distribution H4. Le terme « nombre de degrés de liberté » est lié précisé- 
ment à cette représentation. 
3) Comme Et? = 1, Etf = 3, VE? = 2 pour à E bo, 1, il s'ensuit en vertu 
du théorème limite central que pour K— 
x = k 
V2k 


Ceci et les théorèmes de continuité du & 1.5 entraînent 
V2x? — V2k — 1 & do, 1. 


Cette convergence est à l’origine de l’égalité approchée (pour de grands k 
et x) : H4:(0, xD = B(V2x — V2k — 1), (x) = do, 1(— ©, xD), qui en 


principe est plus précise que l’approximation H4(]0, xD = ( PE &) qui 
V2k 


(= Do. 1. (6) 


résulte de (6). 

Signalons encore un cas particulier de la distribution gamma qui est fré- 
quent dans les applications. 

S. Distribution exponentielle. C’est la distribution F4. 1 de densité 


œe , X > 0. 


Des formules (5), il s'ensuit que pour EF, 10ona 
E£ = l/a, VE = 1/a°. 


Considérons maintenant quelques distributions rattachées aux distribu- 
tions normale et gamma, qui sont d’une grande importance en statistique 
mathématique. C’est la première fois que nous avons affaire à ces 
distributions. 

6. Distribution F4,, « de Fisher à (41, k2) degrés de liberté. C’est ainsi 
qu'on appelle la distribution de la variable aléatoire 


Ç = 71/mM, 


où mEHk; j = 1, 2, et sont indépendantes. Des propriétés de la distribu- 
tion gamma il s'ensuit que ÿ admet la même distribution lorsque 7; € 
€ l'x.kj2 quel que soit æ > 0, et que pour les K; entiers, la variable ÿ se 
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représente par 


EF +... + 
SE EN UES HEC 
ÿ1 + .. + Ve 


où £; et 4 sont des variables aléatoires indépendantes normales réduites. 
Calculons la densité de la distribution F4,, «,. On a 


Ml T1 
P _ = u-v : 
(T <x) (| V1, x, (du) F1, x, (dv) { { TAN) e du dv, 

u/v<x : ve=0Ou=0 
À -1,=1 
Je(x) = GE» Le es e”""*v dv = 
0 
Al +kL=1,- x! ra 
= 7" |pthrl, Vi +x = (A1 + À2) 

FA)F(X) fi cr (A + xt TT) | (7) 


0 


On obtient la densité cherchée en faisant À, = k;/2. Les moments de £ (s’ils 
existent) sont : 


1 Tu +) { mit _ FR + FR - 
Su rA)T(R) (+ *ù Es F(A)T(R) © 


0 


En particulier, pour / = 1, 2, on trouve 

IN MG + 1) 
ù — 1 Qc — DR -2) 

La distribution de Fisher est parfois appelée distribution de Snedécor. 
Ceci est lié au fait que Fisher a proposé d'utiliser et tabulé non pas la distri- 


Eÿ = . Et 


bution de ?, mais celle de In +. La distribution de + a été tabulée plus 


tard par Snedécor. 
7. Distribution T4 de Student ”) à 4 degrés de liberté. Par définition, c’est 
la distribution de la variable aléatoire 


PS. NÉE 


lé? 4 + #2) 


*) Student est le nom de plume de Gosset W. 


T2 THÉORIE DE L'ESTIMATION DES PARAMETRES INCONNUS (CH.2 


où £;E bo, 1, J = 0, ..., £, et sont indépendantes. Il est évident que —1 
admet la même distribution. Donc, la distribution T4; est symétrique par 
rapport à l’origine des coordonnées. D'autre part, 


2 kEG _ km 


H+. +  m° 


où »; sont indépendantes, m1 € H1, m € Hk. Ceci exprime que r?/k suit la dis- 
tribution de Fisher. Considérons la variable aléatoire r = Vt, f = m/m, 
EH, Puisque P(r < x) = P(f < x°), la densité f(x) de 7 est égale à 


TM + X) Le 
PM) OR) (+ 2 + 


TU +X)._ 2Pù7! 
T)T@R) (1 + tx? 


fn) = 2fw() = 2x 


À = K;/2, x > 0. 


En faisant À, = 1/2 et À = K/2, on obtient de toute évidence la densité 
de |t| /Vk. La distribution de # étant symétrique, sa densité f(x) est en 


définitive 
POREPCN (EE S DE @) 
Joo0e) Vak T(k/2) k 


Il est clair que tous les moments de f d'ordre impair (s’ils existent) sont nuls. 
Pour les moments d'ordre 2/ on a en vertu de (8) 


Er = KEt' = K FN + OR - D 


FAN)T(R) ; 
où À = 1/2, = K/2, 21<k. Pour / = 1, on obtient 
2 Kk 
Er = 2 


La fonction /#(x) rappelle par sa forme la densité de la loi normale. 
Bien plus, 


- 2/2 

Jo) + ——— 2e", kK—+ =, 
V2x 

ce qui exprime que £ & do, lorsque £ —+ ©. Mais f(x) admet des « ailes 

plus lourdes », puisque la fonction (9) décroît, lorsque lx! croît, bien plus 

lentement que e “2, de sorte que pour tous les b > 0 


T:( — b, DD < So, 1 — à, DD. (10) 
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Ceci étant, l’écart entre le premier et le second membre de (10) peut être con- 
sidérable pour les petits K. 

Le lecteur peut prouver la convergence de 1 = VK &/Vm d’une autre 
façon en mettant à profit les théorèmes de continuité. Il suffit par exemple 


m2 _ 1,2 > NUE 
de remarquer que RL (Et +...+ &) + 1, donc que ee Lo, { = À. 


8. Distribution bêta. On appelle ainsi la distribution B;,. x, de densité 


TO + X) 1 ( —- x7!, xef0,1] 
foto = has 
0, x € [0, 1]. 


Cette distribution doit son nom à la fonction bêta 
1 


B(M, 2) = [ao — x}?! dx = 


(1) 


F(N)F(R) 
FO + XX) 


La distribution bêta est liée aux distributions gamma et de Fisher par 
la proposition suivante : 
Si n ET. à, (ou 1; EH) ef sont indépendantes, alors 


RE RU 
B m1 + m $ + I 


où Ÿ = m1/m € Fix, 2x. 
Ce fait se prouve sans difficultés, puisqu’en vertu de (7) P(B < x) = 


: x 
= P (e < +). 
Je(x) = fo ( 2) (: =)" Œ 


LPO + RD x YU none 
= TOR Gex) Ua 


E B;,, SD 


= FM + ») 
F(A)F(R) 


Pour les moments de f, on a 
1 
TRE) ste _ n-ige = FO + TU + D 
BB = PAT) f» TT RE KE + X +0 


0 


AMI — xl, xel0, 1]. 
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Pour / = 1, 2, il vient 


ES = À! AN + 1) 
M + Qu + ju + X + 1) 


9. Distribution uniforme. La distribution uniforme sur [0, 1] est un cas 
particulier de la distribution bêta pour À) = À = I. 

On désignera U..4 la distribution uniforme sur [a b], de sorte que 
B1,1 = Uo, 1. 

La distribution bêta permet de décrire la loi des termes xx) de l’échantil- 
lon ordonné associé à un échantillon X. 


Eg? = 


THÉORÈME 1. Si X est un échantillon de distribution P et de fonction 
de répartition F continue, on a 


Ya) = Fu) € Bk, n-k+1. 


DÉMONSTRATION. Puisque yx = F(x)E Uo, 1, on peut traiter y) = 
= F(xx)) comme un terme de l'échantillon ordonné associé à un échantillon 
YE Un. 1. Trouvons P(y«E]u, u + du). L'événement {yw)€]u, u + dul} 
peut être représenté comme la réunion des événements disjoints 


A; = {yjelu, u + dul, y; = yw)}, 


qui se produisent lorsque y; tombe dans ]u, u + du (avec la probabilité du), 
k — 1 des n — 1 observations restantes tombent dans l’intervalle ]0, u[ et 
n — k observations dans l'intervalle ]u, 1[. Donc 


P(A;) = Cn=i u*7 (1 — u)"-“du, 
POwElu, u + du) = nC =! u*" (1 u)"-“du. 


Ceci exprime que la densité de yw) existe et vaut 


n! 


Dir “ue r'(n + 1) 


= k=—1 ns n-k sf 
TOTE-k+n “ (0). 

En se servant du théorème 1, on peut obtenir sans peine la distribution 
limite des termes de l'échantillon ordonné lorsque la taille de X croît indéfi- 
niment. Nous nous arrêterons sur un seul résultat découlant des théorèmes 
de continuité. 


THÉORÈME 2. Si a = = s —+ &€]0, 1[ pour n —+ w,ona 


Va(i — &) 
Y&) = a + €, Er € Po, 1. 
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DÉMONSTRATION. Le théorème 1 nous dit que yx) € Bk, n-#+1, donc, 
en vertu des propriétés de la distribution bêta, on a la représentation 
ÉPRLLIERES ; = = ” 

VO + mp vEMHk; ki = 2K, ki = 2n -Kk + 1). 
Posons par souci de simplicité a, = a, & = 1 — a et supposons que a = 
= @ fixe. Il est alors évident que k;/(n + 1) = 24,, j = 1, 2, et en vertu 
des propriétés de la distribution x° 


m = k; + V2k; D, EH = 10 € Do, 1 ; 


Gi 1) 
4 + 
; ie 
Y&) = 
Gi 1) (7 y] ) 
G + @ + —— 
ee EH it 


Reste à appliquer le théorème de continuité 1.5.3A pour 


li | 
HD = —"}"—, b =", 9 = Va . 
Des T° ? y & 
Comme n; (donc #?) sont indépendantes et 
0H _ 2. OH _ _ ti 
di (i+4) dn (a + 0} 


il vient 


(Ow - ajÿn+1=-@Va HV -avVea = Va &, £ € Po, 1. 
Si a dépend de n, il faut se servir de la remarque 1.5.1. 


COROLLAIRE 1. Si a = K/(n + 1)—&€]0, 1[ et la fonction continue F 
est continüment dérivable au point fo = F7 "(@) (le quantile d'ordre ao), 
alors 


Eu Vao(l — &@o) Er 
MO LE or En € Po, 1, (11) 


où t = F° (a) est le quantile d'ordre a, fx) = F”(x). 


Cette proposition dérive directement du théorème de continuité 1.5.3 
(compte tenu de la remarque 1.5.1) si l’on se sert de la représentation 
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x) = F7 (yw) = F°'(a + Qi — &) s.) 
dF” (x) I 


dx SF). 
REMARQUE 1. La proposition (11) généralise un peu le corollaire 1.8.1. 
On peut aussi le généraliser dans une autre direction. Supposons que pour 


xt 


et du fait que 


| FG) — FH] —-clx - EF], y > 0. 


Il est immédiat de voir que pour ya 
[FT 1G) - Fa]? |, 
donc 


1 1 1 
(ru — En = (aol — &))? |t/c|7 sent, ?£ € do, 1. (12) 


Ce qui entraîne (11) pour y = 1 et c = f{ÿ). 
10. Distribution K.,. , de Cauchy de paramètres (&, 0). On appelle ainsi 
la distribution de densité 


: o 


o 


Comme pour la loi normale, les paramètres æ et o sont ici respectivement 
les paramètres de localisation et d'échelle. La forme de la distribution Ko : 
rappelle beaucoup celle de do, 1, mais la densité Ko. 1 présente, comme la 
densité de la loi de Student, des ailes plus « larges » (c’est-à-dire décroît plus 
lentement pour |x|—), de sorte que la distribution Ko, 1 ne possède 
même pas d’espérance mathématique finie. Dans [11], chap. 7 on a signalé 
que les distributions K.. , sont stables comme les distributions normales. 
La fonction caractéristique xo. 1(f) de la distribution Ko, , est 


xo, 1(f) = eh, 
donc 
Xa, ot) = exp{iat — o|1|}, 
Xar.o(l)Xar, et) = EXp{i(oœr + œ2)f — (o1 + œ)|t|}, 


de sorte que le produit de convolution de K.,. ., et de K... 4, est égal à 
Ko + 2.0: + 0): 


Il est immédiat de remarquer que Ko, : = T1. 
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Dans les applications, on a souvent affaire aux fonctions de variables 
aléatoires normales. L'une d'elles est la fonction exponentielle à laquelle est 
reliée la distribution log-normale. 


11. Distribution DEN L,, ,’. On dira que n € L,. > si Inn € 
E db... Autrement dit, n = e*, où £ € +. On voit que la distribution 
L,, est concentrée sur le demiaxe positif. 

En vertu des formules de la densité d’une fonction d’une variable aléa- 
toire (cf. [11]), la densité de n € L.. à est égale à 


Pas {in X) x” !. 


Par ailleurs, 


l _ VW-ar 
En = fe e 2 dy = 


: Re (- Var er = e°+7/2 
= PPT DE Exp , 
— rare es _ est 
oV2x 


12. Distribution dégénérée. Le symbole L (que nous avons déjà utilisé 
dans le $ 1.2) désignera une distribution dégénérée concentrée en un point a. 

Dans le cas général où l’on étudiera une famille arbitraire de distribu- 
tions dépendant d’un paramètre 8 (scalaire ou vectoriel), on se servira de la 
notation Ps. La famille, quant à elle, sera désignée par 


{Po }oco, 


où © est l’ensemble de toutes les valeurs possibles du paramètre 8. On appli- 
quera les mêmes notations aux familles de distributions 1 à 12. Ainsi, 
{Ba.1)aer désignera la famille de toutes les distributions normales de 
variance I. 

Les distributions 1 à 11 sont absolument continues par rapport à la 
mesure de Lebesgue. Introduisons maintenant les notations de trois distri- 
butions discrètes bien connues (absolument continues par rapport à la 
mesure cardinale u(B) définie comme suit : u(B) = k si B contient £ points 
entiers). 

13. Distribution B> de Bernoulli. Par définition, £ € B, (n est entier, 
p € [0, 1} si 


PE = &) = Cip“( - py'", 0O<k<n 
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14. Distribution IT, de Poisson. Cette distribution est définie par la 
relation 
À + 
ET e , À > 0. 


KkEeB 
kz=0 


IG) = 


15. Distribution polynomiale. Nous la désignerons par B;, où n > Oest 


r 

un entier, D = (P1, ... Pr), Dj > 0, >,P; = 1. Etant donné un vecteur 
j=i 

aléatoire à composantes entières » = (»1, ..., ».), on écrira » € B» si pour 


k = (kK,...,k),k, 230, >,k; = n,ona 


j=i 
Pt = k) = 0 ph... pr. 


La distribution B; est rattachée à une suite de n épreuves indépendantes 
donnant lieu à une issue sur r possibles incompatibles 41, ..., 4,, la proba- 
bilité d'apparition de l'issue À; au cours d’une épreuve étant égale à p;. Les 
coordonnées »; du vecteur » représentent les fréquences d’apparition des 
événements À; au terme de n épreuves (cf. par exemple [11]). Il est évident 
que pour chaque ; = 1,...,r 


L'issue de la j-ième épreuve peut être décrite par un vecteur x; à r dimensions 
dont une composante est égale à 1 et les 7 — 1 autres à 0. Le numéro de 
cette composante est le numéro de l’événement qui s’est produit au cours de 


ñn 
la j-ième épreuve. Il est évident que » = >, x;. S'agissant d’un échantillon 
j=1 
X = (x, ..., Xn), 1l nous sera plus commode de noter 


X € B,, 


où B, = B}. L'espace attaché à cet échantillon est visiblement fini et com- 
posé de r points. Si p = (P1, P2), 1 + P2 = 1, on obtient le schéma de Ber- 
noulli pour lequel nous emploierons les mêmes notations en identifiant 
Ben. p» à B, = By, (cf. n° 13). Dans le cas général, la distribution B, ne 
dépend en fait que d’un paramètre (p1, . . ., Pr- 1), de sorte qu’on aurait pu 
remplacer l'indice p par (p1, ..., Pr-1). 

Parmi les distributions envisagées ci-dessus, plusieurs, notamment oi, 
He, F4, «, Te, Ib, sont tabulées dans des aide-mémoire de statistique 
mathématique et dans des tables spéciales (cf. par exemple [8]). 
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8 3. Estimation ponctuelle. Méthode fondamentale d’estimation. 
Convergence, normalité asymptotique 


1. Méthode de substitution. Convergence. La notion d’estimateur a été 
introduite au $ 1. Formellement Cest la même chose qu’une statistique, cest- 
à-dire une fonction mesurable 8° d’un échantillon. De façon non formelle, 
nous appelons estimateurs 6° les seules statistiques qui sont destinées à rem- 
placer le paramètre inconnu 8. En d’autres termes, 8” est une approximation 
de 8 dépendant de l'échantillon. Une valeur de 8° est appelée estimation 
ponctuelle de 8 par opposition aux estimations par intervalles qui seront 
envisagées plus bas. 

La donnée d’un estimateur suppose généralement la donnée de fonc- 
tions (des échantillons X,) définies pour toutes les valeurs possibles de »1. 
Aussi dans la suite, le terme « estimateur » désignera-t-il une famille de sta- 
tistiques 0° = 0,(X3) définies pour tous les ñ = 1, 2,..., où 0° est une fonc- 
tion sur 7”, ou, ce qui revient au même, une fonction 8° = 8°(n, X<) défi- 
nie sur le produit de l’ensemble des entiers par °°. 

Conformément au $ 1, nous admettrons que dans la position du pro- 
blème d'estimation sont définis l’ensemble © des valeurs possibles du para- 
mètre 0 et la famille # des distributions possibles P de l’échantillon X (ce 
peuvent être, disons, seulement les distributions normales &...1 ou les distri- 
butions de Poisson IR dont on demande d'estimer les paramètres inconnus 
a, À). Si aucune condition n’est imposée à 8 (ou à P), on pourra admettre 
que © (resp. #) est confondu avec l’espace euclidien de dimension corres- 
pondante (resp. avec l’ensemble de toutes les distributions). 

Pour désigner l’estimateur d’un paramètre, on fera suivre le symbole de 
ce dernier par un astérisque. Par exemple, un estimateur du paramètre @ 
d’une loi normale sera 

n 
+ _ 1 D. 
œ = — ? jxi. 
n 


im] 
Les moments empiriques utilisés pour estimer 
Ex = (xP(dx) et Vxi =[(x — Ex) P(ax) 
sont désignés par des notations spéciales : 
se Le 2 - L _ x 
= F2 et S 24% X)°. 
i= i= 


Nous avons déjà signalé qu’un paramètre possédait une foule d’estima- 
teurs et avant de discuter les critères de leur qualité dans telle ou telle situa- 
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tion, arrêtons-nous sur quelques méthodes générales « régulières » de leur 
construction. 

Ces méthodes regroupent les approches les plus logiques du problème 
d'estimation et nous permettent d’acquérir les meilleurs estimateurs selon 
tel ou tel critère. 

Les méthodes d’estimation sont presque toutes basées sur la substitution 
d'une distribution empirique. 

Soit X#, € P et supposons que le paramètre inconnu 8 se représente par 
une fonctionnelle G de la distribution P : 


= GP). 


Supposons par ailleurs que P, est comme toujours une distribution empiri- 
que. La méthode de substitution nous commande de prendre pour estima- 
teur 8 la fonction 


8" = G(P;). 


Un tel estimateur sera appelé estimateur par la méthode de substitution 
ou pour simplifier estimateur de substitution. 

La fonctionnelle G est parfois donnée sous forme implicite comme solu- 
tion d’une équation #(6, P) = 0 résoluble en 8. Dans ce cas, aux termes 
de la définition fondamentale, on appelle estimateur de substitution toute 
solution de l’équation H(8, P;) = 

Si l’on sait que le paramètre 8 € R“ prend ses valeurs dans un domaine 
@ C R“, on peut utiliser cette information dans la construction des estima- 
teurs de substitution. Supposons que le domaine 6 est fermé et soit .# 
l’ensemble de toutes les distributions de l’échantillon X, 6 = {G(P)}pe,. 
Définissons la fonctionnelle G.(P), où P est arbitraire, comme la valeur 
t € © pour laquelle 


min |1- G(@P)| = |G(P) - GEP)|, (1) 


de sorte que G.(P) est le‘point de © le plus proche de G(P). Puisque G:1(P)= 
= G(P) = 80siP €. l’estimateur 


= G1(P:) (2) 


sera avec G(P;) un estimateur de substitution et de plus l’ensemble des 
valeurs possibles de 8° sera inclus dans ©. 

Au sujet des estimateurs (1) et (2) on dira qu’ils ont été acquis par restric- 
tion de la méthode de substitution. 

Supposons maintenant qu’on estime le paramètre & de la loi normale 
1 et que l’on sache a priori que & € [0, 1]. Il est alors possible que œ = 
= X 6 [0,-1] (il est évident que x = fe dF,{t) est une estimation de substitu- 
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tion). La restriction de la méthode de substitution nous suggère de prendre 
pour estimation le point de [0, 1] le plus proche de x. 

Signalons maintenant que telle qu’elle a été formulée la méthode de 
substitution n’a pas toujours de sens. En effet, la fonctionnelle G peut ne 
pas être définie sur l’ensemble des distributions empiriques. Supposons par 
exemple que l’on sache a priori que la distribution P appartient à la classe 
des distributions absolument continues par rapport à la mesure de Lebes- 
gue, de sorte que chaque P € admet une densité f. On s’intéresse à la 


valeur dP \? 
8 = GP) = [ro - (&) dx 


Il est clair que G(P;) n’a pas de sens dans ce cas, puisque P, est une distri- 
bution discrète. Dans ces cas la méthode de substitution peut toujours être 
modifiée naturellement de manière à garder son sens. Dans l’exemple cité 
où G(P) est une fonctionnelle de la densité f, pour 6° il faut envisager, en 
vertu de la méthode de substitution, la valeur G(P, ), où P, est une distri- 
bution empirique lissée (cf. $ 1.10) dont la densité converge vers f{x). 

Il est possible aussi que parfois G(P:) n’ait pas de sens pour tous les X,, 
mais seulement pour X, € A4, Où P(Xh € A4) —+ 1 pour ñ7 —+ co. Cette cir- 
constance est sans conséquence sur la suite et pour fixer les idées on peut 
poser G(P,) = 0 pour X € Au. 

Dans ce paragraphe on admettra pour simplifier que G(P,) a un sens 
pour tous les X,€ "et que 0° est une variable aléatoire, c’est-à-dire que 
G(P:) est une application mesurable de 7” dans R“, où & est la dimension 
de 6. 

Le principe de substitution est une approche assez naturelle du pro- 
blème, puisque, comme on sait déjà, la distribution P, — P lorsque ñ — co. 

Supposons que À, = [Xx]hn. 

DÉFINITION 1. On dit qu’un estimateur 9” = 8,(X,) (ou une suite 
0,(X)) est convergent si : 

0 > 0 
lorsque 7 — ©. 

Un estimateur 0° est fortement convergent si 


8" — 6 
Ps. 
lorsque 7 — oc. 
Supposons comme toujours que F est la fonction de répartition de P. 


THÉORÈME 1. Supposons que 8 = G(P) et que la fonctionnelle G 
appartienne à l’une des deux classes suivantes : soit elle se représente sous 


FES GE) = H([eGdF x), (D 


6—4195 
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où h est une fonction continue au point a = (e(x)dFo(x) (et c'est une fonc- 
tionnelle de type T), soit elle se représente sous la forme 


G(P) = G(F), (D) 


où la fonctionnelle G; est continue au point Fo par rapport à la métrique 
uniforme (et c'est une fonctionnelle de type 11). Dans ces conditions, si 
X € M, alors 8 = G(P:) est un estimateur fortement convergent : 


0 — 0. 
p.s. 


Ce théorème résulte immédiatement du théorème 1.4.1. 

2. Normalité asymptotique. Cas d’un paramètre scalaire. 

DÉFINITION 2. On dit qu’un estimateur 8° d’un paramètre 8 est asymp- 
totiquement normal de paramètre o° > 0 si (0° — 8) Vn & do, +. 

La dernière relation peut être lue de la manière suivante : l’estimateur 
0” est asymptotiquement normal de paramètres (9, o?/n). 

Supposons que 8° est un estimateur de substitution du paramètre 4 = 
= G(P) et que (D) est réalisée, c’est-à-dire que 


| 
= h (2400) G) 
est une statistique du premier type. Les résultats du & 1.7 entraînent la pro- 


position suivante. Supposons que 8 est un paramètre scalaire et g, une fonc- 
tion scalaire. 


THÉORÈME 2. Si X € Fo, h est dérivable au point a = (g(x)dFo(x), 
O <lh’(a)l < ©, [8 x)dPo(x) < , alors 6° est un estimateur asymptoti- 
quement normal de paramètre 


og = [h'(a)}°[@(x) — a) dPo(x). 


Les exemples traités dans le $ 1.7 peuvent servir à illustrer ce théorème, 
puisque les statistiques mises en jeu sont utilisées pour estimateurs. 

Par analogie, on aurait pu se servir des résultats du $ 1.8 pour établir 
les conditions de normalité asymptotique d’estimateurs qui sont des statisti- 
ques du deuxième type. Le lecteur peut déduire les assertions nécessaires à 
l’aide du théorème 1.8.1 en y exigeant seulement que À = 1 et que la dérivée 
g soit telle que g(F0, w°) € #0, à. 

3. Normalité asymptotique. Cas d’un paramètre vectoriel. 

DÉFINITION 2A. On dit qu’un estimateur 8° = (61, ..., 6x) de 0 = 
= (61,...,0k) est un estimateur asymptotiquement normal de matrice o? si 


(8° — 0)Vn & Do. s, (4) 
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où Po, .* est une distribution normale £-dimensionnelle d'espérance mathé- 
matique nulle et de matrice des moments d’ordre deux o? = Mo:;l. La den- 
sité de cette distribution est (cf. $ 2) 


VIAT  - + xarr 


po, (x) = Cr? e » 


où À est la matrice inverse de 0°, x = (x, ..., Xk). 

Si 8° est un estimateur de substitution et s’il est und statistique du pre- 
mier type (c’est-à-dire représentable sous la forme (3), où g, 8° et À sont des 
fonctions vectorielles), on peut se servir du théorème 1.7.1A et de la remar- 
que qui le suit pour établir les conditions de normalité asymptotique. 


THÉORÈME 2A. Supposons que 0° € R“ est défini par (1), où g = 
= (g1,..., 8)ER’, et que la fonction vectorielle h(t) = (hit), . . ., hxf)), 
= (h,...,t,), admet au point a = (&,..., 45), a; = [e{x)dFo(x), les déri- 


vées partielles ee (a), 1 = 1,...,k,j = 1,...,s. Sous ces conditions, 
J 
si X € Fo, alors 
(8° — 6)Vn = £EHT, 


où £ = (k1,..., Es) € Do. 4° est un vecteur normal de moyenne nulle et de 
matrice des moments d'ordre deux d? = Wdyl, dj; = E(gi(x1) — a)(g;(x1) — 
— 4), ,j =1,...,S; H = Vh;;l est une (k, s)-matrice d'éléments h;; = 


Ceci exprime que s1 les conditions du théorème 2A sont remplies, l’esti- 
mateur 0" est un estimateur asymptotiquement normal de matrice o? = 
= Hd’ HT = EHt'£HT. Signalons que les dimensions k et s des matrices 
o° et d° sont différentes ici. 


8 4. Réalisation de la méthode de substitution 
dans le cas paramétrique. Méthode des moments 


Supposons que X € Ps, où {Pe}eco est une famille donnée de distri- 
butions Ps, dépendant d’un paramètre 8. Le paramètre 8 peut être aussi bien 
scalaire que vectoriel. Si par exemple X € &.., alors 0 = (œ, o°) est à 
deux dimensions et l’ensemble 6 est le demi-plan { —-æ < æœ < w, a > 0] 
ou l’une quelconque de ses parties. 

L'espérance mathématique et la variance d’une statistique S = S(X), où 
X € Po, seront désignées respectivement par EeS et VesS. 

On se propose d'étudier quelques méthodes d’estimation dont chacune 


6° 
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peut être traitée comme une réalisation du principe de substitution d’une 
distribution empirique. 

1. Méthode des moments. Cas scalaire. Choisissons g(x) de telle sorte 
que la fonction 


m(8) = Eog(x) = [g(x)Pe(dx) (1) 


soit monotone et continue. Le domaine m"(6) des valeurs de "1(8), 8 € ©, 
sera de même « nature » que 6. Si par exemple 6 est un intervalle de l’axe 
réel, il en sera de même de "1(6). 

I est évident que l'équation m”1(0) = t admet une seule solution continue 
dans le domaine m(6), soit 9 = m°!(t), et que (1) peut être écrit sous la 
forme équivalente : 


0=m [eG)Pe(dx)). (2) 
Supposons pour simplifier que 


g = (c4P:6 = LD tx) € m(O) 
im] 
pour tous les X € 27. 


DÉFINITION 1. On appelle estimateur par la méthode des moments 
l'estimateur 


9" = m°'(@). (3) 
Si g é m6), on peut, en vertu de (3.1) et (32), poser 
9 = m°'(), 


où # € m0) est le point de "#7(6) le plus proche de £. 

Il est aisé de voir que c’est un estimateur de substitution. Le choix de 
la fonction (0) nous a permis d’exprimer 0 sous la forme d’une fonction- 
nelle (2). 11 est clair aussi que l’estimateur (3) est une statistique du premier 
type, de sorte que les estimateurs par la méthode des moments seront forte- 
ment convergents en vertu du théorème 3.1. Si en outre la fonction "1 est 
dériväble au point 8 et [g(x)Pe(dx) < ©, le théorème 3.2 nous dit que l'esti- 
mateur par la méthode des moments sera asymptotiquement normal de 
paramètre (m1 °(0)) -“Vog(xi). 

La méthode des moments a été proposée par Pearson (dans une forme 
plus particuhère) et historiquement est la première méthode régulière de 
construction des estimateurs. 

Cette méthode tient son nom du fait qu’elle consiste à égaler les 
moments « théoriques » et empiriques (les espérances mathématiques) de 
la variable g(x1) : en effet, l’estimateur (3) n’est autre que la solution de 


$4] MÉTHODE DE SUBSTITUTION DANS LE CAS PARAMÉTRIQUE 85 


l'équation 
me) = LD gtx). ( 
im 


Ajoutons que pour g(x) on prend souvent la fonction g(x) = x ou g(x)= 
= x*, k > 1, de sorte que notre équation se transforme en équation pour 
les moments ordinaires. | 

L'égalité (4) peut également être traitée comme une égalité entre les 
moyennes de g(x:) sur l” « espace » et sur le « temps ». 

La non-univocité de la méthode des moments, de même que du principe 
de substitution, saute aux yeux : en effet, le choix de la fonction g(x) n’a 
été soumis pratiquement à aucune contrainte. 

EXEMPLE 1. Soit X € FX. 1 et supposons que « est inconnu. Construi- 
sons des estimateurs par la méthode des moments avec les deux fonctions 
élémentaires g1(x) = xet g(x) = x?. On a les égalités suivantes (cf. n°5, $ 2) 


ma) = EagiGu) = [xTa. 1(dx) = 1/@, 


0 
ma) = Esgixi) = fer. 1(dx) = 2/a°. 
0 


La résolution des équations 11(œ) = x, max) = 15 x nous donne 
im 


les estimateurs par la méthode des moments 


. — 1/2 
=, à = 2») (5) 
im! 


Ces deux estimateurs sont des statistiques du premier type et nous pouvons 
décrire leurs propriétés asymptotiques. On obtient en vertu des égalités 
(2.4) : 


Ve (x1) = Vax = 1/@°, Vea(x) = V, x? = 20/a*. 
Comme mïi(œ) = — 1/a° pour le premier estimateur et m72(œ) = — 4/a° 
pour le second, les théorèmes 3.1 et 3.2 nous disent que les estimateurs a* 


et æ«** sont fortement convergents et asymptotiquement normaux de 
paramètres 
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Lestimateur &° est visiblement meilleur, puisque la variance de sa distri- 
bution limite est plus petite. 

2. Méthode des moments. Cas vectoriel. Le cas où 0 est un paramètre 
vectoriel se traite exactement de la même manière. 

Supposons comme toujours que 8 est un paramètre à Æ dimensions. 
Choisissons la fonction vectorielle g(x) = (g:(x), . . ., gk(x)) de telle sorte 
que l’équation 


m(9) = t, 
où 
l= (h,...,tk), m(0) = (m1(8), ..., me(B)), 
m,(8) = Eogj(x) = [gx)Po(dx), 


admette une solution continue unique 4 = m°"(f) dans le domaine m(6) 
des valeurs de "”1(8), 8 € 6. Supposons pour simplifier que le vecteur 


g = G D ex), si _ DT) 


is! im]! 


appartient au domaine m(6) pour tous les X € 27. 

DÉFINITION 1A. L'estimateur 8 = m ”!(£g) s'appelle estimateur par la 
méthode des moments. 

Comme précédemment le théorème 3.1 nous dit que ces estimateurs 
seront fortement convergents. 

Pour que l’estimateur 8” soit asymptotiquement normal, il faut exiger en 
outre que la fonction m soit dérivable, feAx)Po(dx) < co. Le théorème 3.2A 
nous permet d'obtenir sans peine une assertion sur la distribution limite de 


EXEMPLE 2. Prenons pour {Pe] la famille des distributions normales 
ba. . En admettant que g1(x) = x et g(x) = x°, on obtient les équations 
suivantes de la méthode des moments 
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Nous proposons au lecteur de trouver, à titre d'exercice, les estimateurs, 
par la méthode des moments, des paramètres pour toutes les familles para- 
métriques citées dans le & 2. 

3. Méthode des moments généralisée. La méthode des moments admet 
la généralisation suivante qui élargit considérablement la classe des estima- 
teurs envisagée ci-dessus. Bornons-nous, pour simplifier, au cas d’un para- 
mètre 8 scalaire. Considérons une fonction de deux variables g(x, 8) et sup- 
posons que pour toute distribution P l'équation 


(etx 8)P(dx) = [e(x 6)Pe(ax) (6) 


admet une solution 8 = G(P), de sorte que 8 = G{P:) pour P = Pa. 
On appellera estimateur par la méthode des moments généralisée 
l'estimateur 


6" = G(P;). 


Il est évident que c'est un estimateur de substitution comme les estima- 
teurs par la méthode des moments. L'étude des propriétés de ces estimateurs 
est plus compliquée. Nous aurons l’occasion de nous en assurer dans les 
prochains paragraphes dans la mesure où l’un des estimateurs de substitu- 
tion que nous aurons à étudier en détail sera un estimateur par la méthode 
des moments généralisée. 


8 5* Méthode de la distance minimale 


Cette méthode qui, comme celle des moments, est une réalisation du 
principe de substitution consiste en ce qui suit. Considérons une fonction- 
nelle de deux distributions d(P, Q) qui, regardée comme une fonction de 
Q, atteint son minimum pour Q = P et d(P, Q) > d(P, P) pour Q x P. 
Nous traiterons la quantité d(P, Q) (ou d(P, Q) - d(P, P)) comme la « dis- 
tance » entre Q et P, de sorte que P peut être définie comme la valeur de 
Q pour laquelle d(P, Q) atteint son minimum. 

Supposons maintenant que X € P et que P est inconnue et appartient 
à une famille 2 Désignons par (Q) , la distribution de .:# la plus proche de 
Q au sens de la distance d et supposons qu'elle existe : 


si bien que (Q), = Q pour Q € .Z 

DÉFINITION 1. On appelle estimateur de la distribution P par le mini- 
mum de la distance d la distribution P° = (P;),€ 2 où P, est comme 
toujours une distribution empirique. 

Donc, la distance d(N, P;) est minimale pour I = P* = (P;),. Si.# 
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est confondue avec l’ensemble de toutes les fonctions de répartition, il est 
alors évident que P° = P,. 


Supposons maintenant que .# = {Po]oc0 est une famille paramétrique 
vérifiant la condition suivante : 
(Ao) Po, À Poe, pour  # 6. 


Dans ce cas l’application 9 — P, est bijective, de sorte que la distribution 
P €.# permet de déterminer de façon unique le paramètre 8 pour lequel P = 
= Po. Ce fait s'exprime encore comme suit : il existe une fonctionnelle G 
définie sur Ætelle que 8 = G(P2e). 

Introduisons la fonctionnelle G:(Q) = G((Q).). Il s’agit de toute évi- 
dence de la valeur de 8 € 6 pour laquelle P, sera la distribution la plus pro- 
che de Q au sens de la distance d, de sorte que 


G1(@Po) = G(Pe) = 6. (1) 


DÉFINITION 2. L'estimateur 8” = G:(P.) s'appelle estimateur du para- 
mètre 6 par le minimum de la distance d. 
En d’autres termes, l'estimation 8° est la valeur de @ pour laquelle 


d(Pe., P,) — _ d(Po, P;). 


Il est évident que nous avons de nouveau affaire au principe de substitution. 
Ceci résulte des définitions et de (1). Il va de soi que la distance d et la 
famille æ = {P,} doivent posséder des propriétés assurant la mesurabilité 
de l’application de Z"* dans R“, réalisée par la fonctionnelle G(P;,), de telle 
sorte que 8° soit une variable aléatoire. 

Signalons maintenant que dans le cas paramétrique, si la condition (Ao) 
est remplie, la restriction de la méthode de substitution (cf. (3.1), (3.2)) et 
la méthode de la distance minimale fournissent la même classe 
d'estimateurs. 

En effet, on sait déjà que les estimateurs 8° par le minimum de la distan- 
ce sont des estimateurs de substitution, et de plus 8° € 6. Supposons main- 
tenant que 0° est un estimateur de substitution : 8” =G(P,), où G(Pe)= 
= 0,0° € 6. Définissons la distance aœ, Q) = 1GP) - G(Q)i. Il est alors 
évident que 8° réalise 


inf d(Po, P,) = inf |G(Pe) — G(P;)l = inf 10 — G(P.)i = 
0€6 0€0 (142) 


Signalons aussi que le champ d’application de la méthode des moments 
est bien plus étroit que celui de la méthode de substitution, puisqu'il est évi- 
dent que les fonctionnelles G telles que G(Pe) = 0 n’admettent pas toutes 
une représentation de la forme 


GP) = m7" (fet)Po(dx)). 
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Revenons maintenant aux estimateurs par le minimum de la distance. Il 
est clair qu’on peut indiquer de nombreuses distances « raisonnables » d uti- 
lisables pour la construction d’estimateurs. Pour d nous aurions pu prendre 
la distance 


d(P, Q) = sup IFP(x) — Fo(x)| 


ou 
d(P, Q) = [(Fr(x) — Fox) dFa(x), 


où Fp{x) est la fonction de répartition de la distribution P. Les estimateurs 
6" par le minimum de la distance seront ici les valeurs de 8 qui réalisent 
respectivement 


inf sup lFpa(x) — Fa(x)l, 
x n L 22 
inf [er0 — F0) dFA(x) = inf, 2 (Fr) = #2) { 


K=1! 


Dans certains problèmes (comparer avec [19]) on utilise les estimateurs 
par le minimum du x°. Il s’agit des estimateurs par le minimum de la 


distance 
_V' @&) - QU) 
d@P, Q = 2) Fe —. 
Où A1, ..., À est une partition de R (ou de R°”" si x; sont m-dimensionnels) 


en 7 < intervalles, de sorte que (JA; = R. L'estimation 8° par le 
im] 


minimum du x? est donc la valeur de @ qui minimise 


SPA) - mn} _ V7 (nPAA) - Ÿ 


PA) 237 PAR) 


F=1 


où »; = nP,(A;) est le nombre d'observations x; contenues dans l'intervalle 
A. Cette estimation tient son nom de la statistique x? qui figure au second 
membre de (3). 

Nous verrons plus bas qu’il existe une fonctionnelle G, telle que G(P+)= 
= 0 et pour laquelle les estimateurs de substitution appelés estimateurs par 
le maximum de vraisemblance seront meilleurs dans un certain sens. De ce 
fait les estimateurs envisagés dans ce paragraphe ne font pas recette dans 
les applications et ne seront donc pas étudiés en détail. 
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$ 6. Méthode du maximum de vraisemblance 


Soit # une famille paramétrique de distributions {Po}oce. Dans la 
suite, chaque fois qu’on aura affaire à cette famille, on admettra que sont 
réalisées les conditions : 


(Ao) Pa, F Po, pour O1, # 6, 
(A,) : Il existe une mesure o-finie 4 sur l'espace mesurable (Z; B.,;) telle 
que toutes les distributions Pe € admettent la densité f(x) = _n (x), 


de sorte que 
Ps(B) = | fo(x)u(ax). 


B 


On dit alors que la mesure y domine les distributions Ps. 

Toutes les familles de distributions étudiées au $ 2 vérifient visiblement 
les conditions (40) et (4,). Pour x on prendra la mesure de Lebesgue si les 
distributions étudiées sont absolument continues et une mesure cardinale, 
si elles sont discrètes. Par mesure cardinale nous entendons une mesure y 
telle que u(B) = k, où k est le nombre de points de B à coordonnées 
entières. 

Aux premières se rapportent les distributions Bu, o, La, 9, gamma, 
bêta, uniforme, de Cauchy, de Student et de Ficher. Aux deuxièmes, les dis- 
tributions de Bernoulli, de Poisson, dégénérée en 0 et polynomiale. Les den- 
sités fe(x) de ces distributions sont citées dans le $ 2. Dans le cas discret 
(lorsque x est une mesure cardinale), la densité f(x) est confondue avec la 
probabilité Pe({x}) de l'événement {x = x} ; ici {x} désigne l’ensemble 
composé du seul point x. Signalons aussi que les distributions #.. et de 
Poisson par exemple sont mutuellement singulières. Au lieu de la mesure de 
Lebesgue et de la mesure cardinale, on pourrait envisager d’autres mesures, 
par exemple les distributions 0.1 et Il, respectivement. Mais les densités 
fe(x) seraient alors différentes. Nous proposons au lecteur de les déterminer. 
Les exemples ci-dessus se rapportent au cas où 7°= Rou:7°= R”,m > 
> 1. La mesure y peut être de nature plus complexe dans un espace des pha- 
ses arbitraire (7, 8 ,). 

La condition (4,) est commode tout d’abord par ce qu’elle nous permet 
d’envisager, sous un même point de vue, l'étude des deux types de distribu- 
tions les plus importantes dans les applications : les distributions absolu- 
ment continues et les distributions discrètes. La condition (4,) ne fait pas 
de distinction entre ces distributions. De plus, la dimension de l’espace des 
phases .:7”devient inessentielle. 


66] MÉTHODE DU MAXIMUM DE VRAISEMBLANCE 91 


On conviendra d'écrire 
f(x) = g(x) [u]-presque partout 


s’il existe un ensemble u-negligeable À (ie. (A) = 0) tel que f(x) = g(x) 


pour tous les x € 4. Il est évident que (x) = g(x) [u]-presque partout si 
et seulement si 


(Ux) — gx} utax) = 0. 


LEMME 1. Soient f et g deux densités de probabilité par rapport à la 
mesure u. Alors 


[09 In fou(dx) > (x) In gGu(dx) (1) 
si ces deux intégrales sont finies. Le signe d'égalité n'est possible que si f = 
= g [1]-presque partout. 


On conviendra que les intégrales de (1), étendues à un ensemble À sur 
lequel f(x) = 0, sont nulles quelle que soit g(x). 
DÉMONSTRATION. Nous devons démontrer que 


(ro In ee u(dx) < 0 


Puisque In(1 + x) < x pour tous les x > — 1 et que l'égalité n’est possible 
que pour x = 0, il vient 


8@) _ 8@X) _ 8) _ 
mu ( ù (2 1)) D | 
où le signe d'égalité n’est possible que pour f(x) = g(x). Donc, 


(ru In ee a(dx) <(s Lo (20 _ 1) u(dx) = 
= (eCu(dx) — (foutdx) = 0. (2) 


Il est évident que l’inégalité (2) sera stricte si f = g [{]-presque partout est 
mise en defaut. | 

Considérons maintenant une famille .Z = {Ps}ece satisfaisant les con- 
ditions (4o) et (4,), et la distance d(P», Q) entre une distribution arbitraire 
Q et une distribution Poe € 


d(Po, Q) = - [In fox)Q(Ax). (3) 
Définissons la fonctionnelle G(Q) comme la valeur de 8 qui réalise 


min d(Poe, Q) = dPcco, Q). 
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Le lemme 1 et & condition (4o) entraînent 


— (fe In foutdx) > — (fe, In fo(dx), 
dPo, Pos) > d(Pec Poe) 
pour 8 # 6. Ce qui exprime que 
G(Po:) = 60. (4) 


DÉFINITION 1. On appelle estimation par le maximum de vraisem- 
blance l'estimation 4 = G(P:), c’est-à-dire la valeur de 8 qui réalise 


. 1 
max [Inf)Pi(d) = max DD) Ü 


Le symbole désignera dans la suite les estimateurs par la méthode du maxi- 
mum de vraisemblance. 

De la définition et de (4) il résulte que l'estimateur par le maximum de 
vraisemblance est un estimateur de substitution. On peut le traiter aussi 
comme un estimateur par le minimum de la distance (3). Cette distance est 
étroitement liée à la distance de Kullback-Leibler entre les distributions. 
Cette distance qui joue un rôle particulier en statistique mathématique sera 
examinée ultérieurement. 

Dans la définition 1, la famille {P+} est supposée telle que 4” soit une 
variable aléatoire ‘). 

L'estimateur par le maximum de vraisemblance n'est pas unique 
puisqu'’une fonction peut atteindre son maximum en plusieurs points. Nous 
citerons un exemple plus bas. 

La dénomination de cet estimateur est liée à l’importante interprétation 
suivante de l'expression 


2 Infe(x) = In IL Jo(x) 


qui figure dans (5). ‘Pour simplifier, considérons tout d’abord le cas discret 
où u est une mesure cardinale. Alors [I] Jfe(x:) est la probabilité d’appari- 
imli 


tion de l’issue X = (x, ..., x). Nous prenons donc pour estimation 0” la 
valeur du paramètre 8 qui maximise cette probabilité (en effet, les fonctions 
(0) > 0 et In #(8) atteignent leurs extremums aux mêmes points). 


*) Autrement dit, 0” est une application mesurable de (7°, 9°,) dans (R*, 34). 
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Cette interprétation est valable pour le cas général aussi. Les x; étant 


indépendants, on a pour les ensembles B = B X ... X By, BE B,, 
Po(X € B) = | fo(xiutdxi) . . . | fo(x)(dx). (6) 
B1 Bn 


On rappelle que x; sont des variables et que le vecteur (x, . . ., x;) est dési- 
gné par x. Soit m” le n-uple produit direct des mesures u, de sorte que 


u"(dx) = IE u(dx;). Alors (6) exprime que 


PAX € B) = |( Il fx))#" (dx) 
B ‘” 


et donc que la fonction fe(x) = II Je(x) est la densité de probabilité du 
im] 


vecteur aléatoire X dans 2” par rapport à la mesure u”, 
[ Ga" (x) = 


Donc, Il Je(xi)x"(dx) peut être interprété (par analogie au cas discret) 


comme la probabilité que l'échantillon tombe dans le parallélépipède formé 
par l'intersection des « bandes » ]x;, x; + dxil, et l’estimateur par le maxi- 
mum de vraisemblance maximise cette probabilité par rapport à 6. 

La fonction 


JA) = IT JO 


traitée comme une fonction de 8 s'appelle fonction de vraisemblance, et la 
fonction 


L(X, 9) = If(X) = À Hu 6), 


où /(x, 0) = In fe(x), logarithme de la fonction de vraisemblance. 

Nous réserverons ces noms aux fonctions f et L dans le cas où l’argu- 
ment est le vecteur x. Donc, la fonction de vraisemblance /,(x) est une fonc- 
tion sur 2" X 6, qui pour chaque 0 € 6 est une densité de probabilité par 
rapport à la mesure #", de sorte que la densité fe(x1) dans est aussi une 
fonction de vraisemblance pour 7 = 1. 

D'autre part, pour 2°= R par exemple, la fonction fe(X) peut être trai- 
tée comme une fonction de vraisemblance d’un échantillon de taille 1 dans 
le cas multidimensionnel où 2°= R" = R'. 

Il est important de souligner que l’estimateur par le maximum de vrai- 
semblance est totalement indépendant du choix de x, puisque la substitu- 


94 THÉORIE DE L'ESTIMATION DES PARAMÈTRES INCONNUS [CH. 2 


tion à y d’une mesure équivalente y, se traduit par la multiplication de la 
n 
fonction de vraisemblance f(x) par un facteur 7 = 
1 
Pour étudier les propriétés asymptotiques des estimateurs par le maxi- 
mum de vraisemblance, on pourrait suivre la même marche que pour les 
estimateurs par la méthode des moments. On rappelle qu’on avait utilisé le 
fait que les estimateurs par la méthode des moments sont des statistiques 
du premier type. Ceci nous a permis d'établir immédiatement leur conver- 
gence forte et leur normalité asymptotique. Sous certaines conditions sur 
fe(x) les estimateurs par le maximum de vraisemblance seront des statisti- 
ques du deuxième type, ce qui nous permettra (cf. théorèmes des $$ 1.5 et 
1.8) d'établir leur convergence et leur normalité asymptotique. Mais nous 
étudierons les propriétés des estimateurs par le maximum de vraisemblance 
directement (cf. $$ 23 à 27) pour des raisons d’économie et d’exhaustivité. 
Trouvons les fonctions de vraisemblance et les estimateurs par le maxi- 
mum de vraisemblance pour certaines distributions du $ 2. Si les fonctions 
de vraisemblance sont régulières, il est plus simple de déterminer leur maxi- 
mum en égalant les dérivées premières à zéro. 
EXEMPLE I. La distribution normale &,.+ dans 2° = R admet la 
densité 


(x) indépendant de 6. 


1 2e (x — a)? 


e 2 , —00 < @œ < ©, og > (0. 
ov2x 


En supposant que 8 = (œ, 9°), on obtient 


Pa, o° (x) 7 


f(x) = Qx) ? 9”"ep{ - 2 g ap}, 
m1 


L(X, 0) = — 5 in2x - nino — 2 — oÿ. 


Comme déjà signalé, les fonctions f et L atteignent leurs maximums pour 
les mêmes 8, puisque in est monotone. On a 


1É 
| 

Qi 

M: 
8 
£ 
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La résolution du système d’équations 
OL 
da 

nous donne 2 

eo = 2 _ 2 _ Ï ___ sy 
a = X, (do) =S 15 x x)". 
is] 
Il est immédiat de vérifier que L atteint bien son maximum en ce point. 
EXEMPLE 2. Considérons une distribution gamma de densité 


À 
_ œ 1 ,-ax 


dans le cas où le paramètre À est connu. On a 


L(X «) = Mina = nIND+A-DEMm-eTx, 
ini {m1 


EXEMPLE 3. Distribution binomiale B,. Pour X € B,, on a P(x = 1)= 
= p, P(x = 0) = 1 — D, 


JC) = p'Q - p}”, 


où » est le nombre d’apparitions de 1 parmi les éléments x1, . . ., X:. Donc, 
L(X, p) = vinp + (n - r)ln(l — p), 
QD nv, ne 
0p P 1 - pp” n° 


Nous proposons au lecteur de trouver à titre d’exercice les estimateurs 
par le maximum de vraisemblance de toutes les familles paramétriques du 
$ 2 et de les comparer à ceux de la méthode des moments. 

Citons maintenant deux exemples dans lesquels la fonction je n’est pas 
régulière par rapport à 8 et les méthodes de recherche d’un estimateur par 
le maximum de vraisemblance impliquant une dérivation ne passent pas. 


EXEMPLE d. Soit X € Us. 1+0 (la distribution uniforme sur [9, 1 + @]). 
On a 


si xE€([8, 1 + 06], 
sinon, 


Je(x) = (0 


_ [1 si 0<xm<xm<1+06, 
#0 = {o sinon, 


96 THÉORIE DE L'ESTIMATION DES PARAMÈTRES INCONNUS (CH. 2 


OÙ Xn< - - - < Xm est un échantillon ordonné. L'estimateur par le maxi- 
mum de vraisemblance n’est pas unique dans cet exemple. En effet, fe(X)= 
= | (Cest-à-dire à la valeur maximale) pour tout 0 vérifiant la double inéga- 
lité Xyny — 1< 0 < x1. De tels 8 existent toujours puisque x) — Xu) < 1. 
On peut prendre en particulier 4” = xu) ou à = x) — 1. 

EXEMPLE 5. Soit # € Uno. e. On a 


: 87! si xe [0, 6], 
POS r sinon, 

h 7" Si x; € [0, 6] pour i= 1,...,A, 
JA) = k sinon. 


Pour exprimer /e(X) comme une fonction de 9, écrivons la condition x;€ 
€ [0, 0], 5 = 1,..., n, sous la forme équivalente 8 > max x; = xx). DONC, 
fe(X) = 0 pour 8 € [0, xml, et fe(X) = 87" pour 8 € Jxm), ©. Le graphique 
de cette fonction est représenté sur la figure 1. La fonction fs est discontinue 
comme dans l'exemple précédent. Elle atteint son maximum au point à = 
X{n)- 
Le lecteur trouvera de façon analogue un estimateur par le maximum de 
vraisemblance du paramètre inconnu (œ, 8) lorsque X € U. 4. 

Si Je(x) est infinie en des points xe dépendant de 8, la méthode du maxi- 
mum de vraisemblance n’a plus de sens (nous avons convenu ici que fe{xs) = 
= © Si f(x) > © lorsque x ! x, ou x xe). Ceci est plus facile à comprendre 
sur l’exemple du paramètre de translation lorsque fa{x)=f{x — 0), f(x)>0, 


ft, ( 


Xçm (:) 


Fig. 1. 


(0) = ©. Dans ce cas fa X) = © pour # = x1, ..., 0 = X, et par suite 
6" prend au moins n valeurs confondues avec les éléments de l'échantillon. 
L'explication de cet effet est que les « jaillissements » de la fonction /e(X) 
ne permettent pas de juger de la position du « vrai » maximum de /e(X) 
qui est conditionné par l’échantillon (comparer avec les $$ 24 et 25). Pour 
pouvoir le faire il faudrait « lisser » par un quelconque procédé la fonction 
Jo(X). 
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Les estimateurs par le maximum de vraisemblance jouissent de l’impor- 
tante propriété suivante d’invariance par le changement du paramètre. 


THÉORÈME ll. Soit B(0) une application bijective de l'ensemble 6 sur 
l'ensemble B Si ÔŸ est un estimateur du maximum de vraisemblance du 
paramètre 6, alors B” = B(ê') sera un estimateur du maximum de vraisem- 
blance du paramètre B=B(6) pour une farnille paramétrique 1Qs = 
= Peu }ses, Où O(B) est la fonction réciproque de B(6). 


On glissera sur la démonstration de ce théorème, car elle coule de 
source. 

Signalons que nous avons déjà implicitement utilisé le théorème 1 dans 
l'exemple 1 où pour déterminer l’estimateur du maximum de vraisemblance 
de o° nous avons cherché le maximum de L par rapport à o et ensuite avons 
pris (o°) = 

Un autre exemple d'application de ce théorème est la recherche de l’esti- 
mateur par le maximum de vraisemblance pour X € L..>:, c’est-à-dire 
dans le cas où In x; € &.,.+. La moyenne a et la variance d? de tels x; sont 
respectivement égales à (cf. $ 2) 


a = expla + 02/2], d? = æ(e° — 1 


Si l'on désigne les estimateurs du maximum de vraisemblance de a et de d? 
respectivement par a” et (d)’, on obtient pour la fonction (a, d?) = B(x, 
o) (cf. exemple 1) 


2 
4 = apfs + + y = (&'}{e” — 1), 


où 


s=] 


Le $ 26 traite du calcul approché de l'estimateur par le maximum de 
vraisemblance dans des situations plus générales. 

Avant de refermer ce paragraphe faisons la remarque suivante. Nous avons déjà dit que 
l'estimateur du maximum de vraisemblance était un estimateur de substitution. Mais l’estima- 
teur du maximum de vraisemblance peut être traité, sous certaines conditions, cofume un esti- 
mateur de la méthodes des moments généralisée. Supposons en effet que La fonction f(x) est 
dérivable par rapport à 8 et que cette dérivation est licite sous le signe d'intégration dans 
l'égalité 

fracorids) - 


7—4195 
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Alors 


O = frs = Fe Je(x)u(dx) = l'(X 9Ye(x)utdx) = Eol' (x, 0). 
, 


Voeux) #0} Veux) #0) 


Si donc dans (4.6) on pose g(x, 8) = /’(x 8), on obtient pour l'estimateur par la méthode des 
moments généralisée l'équation 


Î1'6s pPscdx) = [1 (x jPetdx) = 0 
ou ce qui est équivalent 
L'(X, 8) = 0. 


Ceci est l'équation pour l'estimateur par la méthode du maximum de vraisemblance. 


8 7. Sur la comparaison des estimateurs 


Nous avons vu qu’il existait plusieurs méthodes assez naturelles de cons- 
truction des estimateurs. Une question se pose : comment comparer ces esti- 
mateurs et quels sont les meilleurs ? A cet effet on dispose de deux appro- 
ches : l’approche de la moyenne quadratique et l’approche asymptotique. 

La première repose sur la comparaison des dispersions quadratiques 
moyennes. La seconde ne s’applique qu’aux échantillons de grande taille, 
car elle s’appuie sur la comparaison des « dispersions » des distributions de 
(8° — 8)Vn pour de grands n. Cette comparaison est généralement basée sur 
la forme des distributions limites de (9° — 8)Vn (si elles existent) lorsque 
n—+ oo. Les théorèmes limites correspondants nous donnent les conditions 
sous lesquelles la distribution de (8° — 8)Vn pour les grands n peut être 
approchée par les distributions limites mentionnées. 

Dans ce paragraphe, on admet que les estimateurs sont comparés pour 
une distribution inconnue mais fixée P. 

1. Approche de la moyenne quadratique. Cas scalaire. Cette approche 
est utilisée pour étudier les estimateurs au vu d’un échantillon X de taille 
quelconque fixée (non nécessairement élevée). Elle consiste à comparer les 
erreurs quadratiques moyennes E(8” — 8)°. 

RÈGLE 1. On dira qu’un estimateur 61 est meilleur en moyenne quadra- 
tique qu’un estimateur 63 si 


E(8: — 8) < E(8: — 6)’. (1) 


L'idée que l'erreur quadratique moyenne est la caractéristique numérique la 
mieux appropriée de précision d’une estimation est largement répandue 
bien qu’elle soit discutable à de nombreux égards : en effet, on peut compa- 
rer par exemple les quantités E18” — 81 qui, elles aussi, décrivent les écarts 
moyens entre 0° et 6. 

L'avantage indéniable de E(8° — 8)° est que (8° — 8)° est une fonction 


$7] SUR LA COMPARAISON DES ESTIMATEURS 9 


analytique de la différence 8° — 8. Ceci rend l’étude plus commode et per- 
met, comme nous le verrons plus bas, d'approcher les valeurs de E/(9°” — 
— 0) pour des fonctions régulières f. 
Pour décrire les propriétés des estimateurs, on se sert aussi du biais. 
DÉFINITION 1. On appelle biais ou erreur systématique d’un estimateur 
0" la quantité 


b = Ef° - 6. 


Un estimateur 8” pour lequel b = O0 est dit sans biais ou non biaisé. 
Entre l'erreur quadratique moyenne, le biais et la variance d’un estima- 
teur, on a la relation 


E(0" — 0)? = V6° + b?, 


de sorte que l'erreur quadratique moyenne et la variance des estimateurs 
sans biais coïncident. 

La propriété d’être sans biais est visiblement souhaitable, car elle 
exprime que dans une suite d’estimations donnée, la moyenne des estima- 
tions sera confondue avec la vraie valeur du paramètre. Si cette propriété 
fait défaut, on dit que l’estimation est à biais ou biaisée. 

EXEMPLE 1. Considérons les trois estimateurs suivants de la valeur 
moyenne 8 = Ex. d’une distribution P : 


6 = x 6 = +", = 0, (2) 


où &” est la médiane empirique, xw, # = 1,..., n, les éléments de l’échan- 
tillon ordonné, de sorte que #” =x(çn + 13/2) Si 7 est impair et #” = ; (Xen/2) + 


+ X(n/2 + 1) Si 7 est pair (les trois estimateurs sont confondus pour ñn = 1, 
2). Tous ces estimateurs sont sans biais si la distribution P est symétrique 
par rapport à 0 : P(-— ©, 9 — f[) = P(6 + r, of), vr2>0. Ceci résulte du 
fait que la distribution de ces trois estimateurs sera aussi symétrique par 
rapport à 0. Il est évident que Ex = 8 est sans biais sans l’hypothèse de 
symétrie. 

Calculons les erreurs quadratiques moyennes des estimateurs (2). Pour 
simplifier on se bornera au cas P = Uo, 1, ñ = 3. Les estimateurs (2) 
deviennent 


r 1. . XG) + X(3) 
01 = X, 02 = Xa, 603 = DE 


On a 


1 
Vxi = [x — 1/2)/dx = 1/12, 


0 
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E(6: — 0)? = Vx = Vxi/3 = 1/36. 
Par définition de la médiane (7 est impair), {&"<x} = {F.()> 1/2}, donc 
P(° <x) = PF (> 1/2) = 2, PCF = k). (3) 


Pour 7 = 3 


P(F3(x) = 1) = P( A tx < x}) = F(x), 


im! 
P(G3F:0X) = 2) = 3F (x) — F(x)). 
La probabilité P(#” € Ju, u + duf) est composée des probabilités d'événe- 
ments de la forme {xr € ]u, u + du[}{x2 < w}{xs > u}. Ces combinaisons 
étant au nombre de 6, il vient P(£" € Ju, u + duf) = 6f{u)F{uX1 — F{u))du 
et par suite ;” admet une densité égale à 
Gf{u)F(u}X1 — F{u)), 
où F{u) = : S{)dt = Pi < u) (ceci résulte aussi de (3)). Si P = Uo, 1, 


cette densité sera égale à @x(l — x), x € [0, 1}, de sorte que 
cry = [sa — x)dx = 6(3-3) — a: 
0 


CE 2 | 2 _ 3 _1_ 1 
Vi =ECY ŒY=5-3" 3% 


Reste à trouver la variance de l’estimateur 
” + 
= X(1) ; XG) | 


En raisonnant comme plus haut, on trouve immédiatement que pour u <v 
la probabilité P(x: € Ju, u + dul, x € ]v, v + dvD) = 6f{u)/AvXF(v) — 
— F(u))dudv. Donc, si P = Un, : 


1 r 


E(65Y = (TC) 6(v — u)du dv. 


0 O0 
Cette intégrale est égale à 11/40 (le détail des calculs est laissé au soin du 
lecteur), de sorte que 


Ve = EG) — (ŒŸ = À -4= 2% 
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L'estimateur 8: est donc le meilleur. La situation peut être différente 
pour les autres valeurs de n et d’autres distributions P. Nous verrons LS 
exemple que pour P = &., .: le meilleur estimateur de «æ sera 01 = 

EXEMPLE 2. Estimateurs sans biais de la variance. Considérons É. esti- 
mateurs (de substitution) de la variance 


2 1Su-m=10 x - 


st = Do - Exp = LS + ŒuŸ - Eu 


dans le cas où Ex1 est connue. L’estimateur S? est visiblement sans biais. 
Dans le même temps 


215 x - 2 =1 Du - x + Eu) = 


=1> x - Eu} - & - Eu) = St - (% - Eu) < Si. 
Donc, l’estimateur S? est à biais, et 


ES? = Vxy — Vx = (: + )vn. 


Cette relation montre que dans le cas aussi où Ex. est inconnue, on peut 
considérer -un estimateur sans biais de la variance égal à 


S$ = l > (x ue x), ES — Vxi. 


de 
n — 1 Due n 
Passons maintenant à l’approche asymptotique de la comparaison des 
estimateurs. Dans ce cas nous sommes placés devant un choix unique de 
l’estimateur. 
2. Approche asymptotique. Cas scalaire. Soient donnés deux estima- 
teurs 01 et 62 tels que 
Gi 6 Lo Mo (4) 
O1 o2 
où Q est une loi limite, la même pour 61 et 82, et o> > o1. Pour les grands 
n les distributions de (0; — 8)Vn/o:, i = 1, 2, seront alors proches de Q et 
la dispersion de 62 autour de @ sera indiscutablement supérieure à celle de 
6;. 11 nous faut par conséquent préférer 61. 
L'approche asymptotique consiste donc à comparer les distributions 
limites des estimateurs. 
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Nous avons déjà vu, et nous nous en assurerons dans la suite, que de 
nombreux estimateurs, y compris les estimateurs optimaux, sont asymptoti- 
quement normaux, C'est-à-dire sont justiciables de (4) pour Q = o, 1. Ceci 
nous permet de formuler la règle naturelle suivante de comparaison des esti- 
mateurs asymptotiquement normaux. 

Soient donnés deux estimateurs asymptotiquement normaux 0: et 8> de 
paramètres of et 0? respectivement. 

RÈGLE 2. On dira que l'estimateur 61 est meilleur que 62 si of < 0. 

Dans la suite, on se servira aussi des termes « aussi bon », « pire » et 
« pas meilleur » qui correspondront aux signes d’inégalité <, > et > entre 
of et 93 (ou entre E(6: — 0)? et E(6>: — 8)? dans (1)). Si o? = o%, les estima- 
teurs seront dits asymptotiquement équivalents. Cette convention est natu- 
relle et dans la suite nous ne la spécifierons pas à chaque fois, nous conten- 
tant seulement de définir la relation de « meilleur » ou les relations 
analogues. 

Signalons que dans la classe des estimateurs asymptotiquement nor- 
maux, dire que la dispersion de 0° est minimale revient à dire que la quantité 
lim P(I8 — 81 < u/Vn) 

no 
sera maximale pour tout u. Cette circonstance rend irréprochable cette règle 
de comparaison des estimateurs asymptotiquement normaux. 

En dépit de son caractère naturel, l'approche asymptotique possède un 
grave défaut : elle n'est valable que pour les échantillons de grande taille et 
seulement dans la classe des estimateurs asymptotiquement normaux. 

Les deux approches mentionnées sont dans un certain sens proches l’une 
de l’autre : dans les deux cas le problème revient à comparer des variances 
ou des quantités proches des variances. Certes, la quantité of/n de (4) pour 
Q = do, 1 peut se distinguer fondamentalement de E(8° — 8). Mais les 
exemples illustrant ce fait (nous proposons au lecteur de les construire) revêé- 
tent généralement un caractère artificiel. 

La suite de l’exposé de ce chapitre est essentiellement liée à la construc- 
tion d’estimateurs optimaux pour chacune des deux approches. 

EXEMPLE 3. Soit X € [4 1. Dans l’exemple 1 du $ 4, on a montré que 
les deux estimateurs 


œ] = (7! et 2 _ (2x) 


étaient des estimateurs par la méthode des moments. De plus, «1 est en 
même temps un estimateur par le maximum de vraisemblance. On a établi 
par ailleurs que ces estimateurs étaient tous deux asymptotiquement nor- 


5 


maux de paramètres œ° etz œ? respectivement, de sorte que l’estimateur @1 
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est meilleur que l’estimateur 2 du point de vue de l’approche asymptotique. 
On obtient le même résultat pour 7 > 2 dans le cas de l’approche de la 
moyenne quadratique. 

Citons maintenant un exemple montrant qu’un estimateur peut être 
meilleur ou pire qu’un autre selon les propriétés de la distribution. 

EXEMPLE d. Soit à estimer 8 = Ex, sachant que X € P et P est symé- 
trique par rapport à 0 (comparer avec l’exemple 1). Dans ce cas la médiane 
ÿ de la distribution P est confondue avec 8. Considérons les deux estima- 
teurs (de substitution) suivants de 8 : la moyenne 8; = x et la médiane empi- 
rique > = &”. Supposons pour fixer les idées que n est impair. Du corollaire 
2.2.1 pour k = (n + 1)/2, il s'ensuit que si la fonction de répartition F est 
continüment dérivable au point 0 = #ÿ, alors 


Free = re = d 
En d’autres termes, &” est dans ce cas un estimateur asymptotiquement 
normal de paramètre 0? = 1/(4f%(+)). 
D'autre part, l’estimateur asymptotiquement normal x a pour coeffi- 
cient o? = Vxi. Donc, si 


1 
(x — +)/dF(x) < 
| Fo 
l’estimateur x est meilleur. Si l'inégalité est de sens contraire, Cest £”. Signa- 
lons que les nombres ÎGx — +) dF(x) et f(t) sont des caractéristiques de la 
distribution très peu liées entre elles. 
Considérons un cas particulier important d’estimateur du paramètre @ 


au vu d’un échantillon X € &,,%. Dans ce cas fx) = f(f) = 


oV2r 


de sorte que 


Ceci exprime que la statistique X est meilleure que {”. Cependant nous 
avons vu qu'il était aisé de construire un exemple de distribution pour 
laquelle la statistique £” serait meilleure. 

L'exemple de la médiane est instructif à un autre égard. Il montre que 
le degré de dispersion de £” — ÿ peut décroître à n'importe quelle vitesse. 
Pour s’en assurer 1l suffit de se reporter à la remarque 2.2.1. Dans les condi- 
tions de cette remarque, le facteur de normalisation qui est responsable de 
la convergence de la distribution de #” — # vers la distribution limite est 
la quantité n!/(%, où y est un nombre positif quelconque (cf. (2.12)). Le 
facteur Vn ne correspond qu’aux distributions régulières. 
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Citons maintenant une expérience réalisée sur un échantillon de taille n = 

= 101 de distribution normale do. : et voyons *) comment les valeurs x et 
g° tendent vers O0 pour x = 11, 21, Si, 101. Les résultats obtenus sont consi- 
dans le tableau suivant : 


— 0,28 — 0,254 — 0,148 — 0,072 
= 0291 — 0,292 — 0,078 — 0,044 


Dans cet exemple, l’estimateur &” est meilleur pour nr = 51 et 101, ce qui 
est la conséquence d’un écart aléatoire. Pour mettre en évidence d’avantage 
de x, il aurait fallu réaliser plusieurs expériences de cette nature. 

Voyons maintenant quelles formes prennent les deux approches dévelop- 
pées dans le cas multidimensionnel, c’est-à-dire lorsque 8 = (81, ..., 6x). 

3. Approches asymptotique et de la moyenne quadratique dans le cas 
vectoriel. L'approche asymptotique ne sera utilisée comme toujours que 
dans la classe des estimateurs asymptotiquement normaux. Dans ce cas le 
problème se ramène à la comparaison de distributions normales multidi- 
mensionnelles (limites pour (9° — 8)Vn) qui sont entièrement décrites par 
la matrice des moments d’ordre deux o° (cf. par exemple théorème 3.2A). 

Si l’on se place dans le cadre de l’approche de la moyenne quadratique 
pour comparer les distributions exactes de 0”, on aura à comparer deux dis- 
tributions dans R“ d’après les moments de (8° — 8) d’ordre deux. Dans les 
deux cas nous devons donc comparer des matrices des moments d'ordre 
deux d’après le « degré de dispersion ». 

Considérons les procédés de comparaison les plus naturels. Soient Q:. et 
Q2 deux distributions quelconques dans R“. Soient #1 et Æ des vecteurs 
aléatoires quelconques de distributions Q. et Q2 respectivement. 

DÉFINITION 2. On dira que la dispersion quadratique moyenne de la 
distribution Q. autour d’un point æ € R“ est inférieure à celle de Q: si pour 
tout vecteur a = (ai, ..., &@) 


E(ä — @, a) < E(& — @, a), (5) 
où (x, a) = à x est le produit scalaire. 


im! 
On dira que la dispersion quadratique moyenne de Q est strictement 
inférieure à celle de Q2 si dans (5) l’inégalité stricte est réalisée au moins 
pour un a. 


*» Léchantillon X a été construit à l’aide de nombres aléatoires empruntés aux tableaux 
de [8]. 
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Si « = Eh = Eb, l'inégalité (5) exprime que la variance de Q, dans 
toute direction a (Cest-à-dire la variance de la projection de & sur a) est infé- 
rieure à la quantité respective de Q>. 

Si d? = Id{PA est la matrice des moments d'ordre deux de Q,, / = 1, 2, 
alors en chassant les parenthèses dans (5) pour œ = 0, on trouve pour tous 
A, - - > AK 


k k 
Z df aa; < X, dé aa. (6) 
éj=1 ij=1 
Dans le langage matriciel, cette relation s’écrit 
di < di. (7) 


Ceci exprime que la matrice d? — di est semi-définie positive. 

Donc, la dispersion quadratique moyenne de Q, autour de 0 est infé- 
rieure à celle de Q; si et seulement si les matrices des moments d’ordre deux 
vérifient les inégalités (6) et (7). 

Dans le cas vectoriel la règle de préférence des estimateurs peut être for- 
mulée comme suit : 

Approche de la moyenne quadratique : un estimateur 0; est meilleur 
qu’un estimateur 62 si sa dispersion quadratique moyenne autour de 8 est 
strictement inférieure à celle de 62. 

Si d?est la matrice des moments d’ordre deux de 8; — 6, cette assertion 
se traduit par l'inégalité d? < di. 

Approche asymptotique : un estimateur 01 est meilleur qu’un estimateur 
6; si la dispersion quadratique moyenne autour de 0 de la distribution limite 
de (01 — 0)Vn est strictement inférieure à celle de la distribution limite de 
(62 — 6)Vn. 

Autrement dit, si (8 — 0)Vn& #0. cette assertion exprime que of < 0%. 

On démontre que si 8: et 6 sont deux estimateurs asymptotiquement 
normaux et 01 est meilleur que 62, alors 

lim P((: — 8)Vn € B) > lim P((62 — 6)Vn € B) (8) 
no L End.) 
pour tout ellipsoïde ‘) central B. 

Nous voyons que dans les deux approches, la comparaison des estima- 
teurs revient à établir des inégalités entre matrices des moments d'ordre 
deux. La différence, c’est que dans la première approche les moments ne 
sont pas obligatoirement centrés. 


& 
*) Pour simplifier on conviendra d'appeler eflipsoide dans R“ le domaine D, dyxx;< 
k ji 
< c et ellipse la surface D dyxxy = c. 
jet 
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Etablissons maintenant quelques relations équivalentes à (6) et (7). 


Posons 
v(8") = E(0° — 8)7(8° — 0) 


et désignons par 8; l’ensemble de toutes les matrices semi-définies positi- 
ves V = vi. Si Ud;;l est la matrice des moments d’ordre deux de 8° — 8, 
il est alors évident que v(9”) = > vdi. 


LEMME 1. Pour que d? < di, il est nécessaire et suffisant que v(6i) < 
< v(62) pour toute VE B,. 


DÉMONSTRATION. La condition suffisante est évidente, puisque , = 
= Îa;ail € 8, et pour une telle matrice 


va(0r) = E(@r — 8)V(6i — 0)7 = Daiajd 
(cf. (6)). 


Pour prouver la condition nécessaire, on remarquera que l’ordre partiel 
induit par les inégalités (5) est invariant par une rotation des axes de coor- 
données. Plus exactement, si C est la matrice associée à une transformation 
orthogonale et si 81 est meilleur que 62, alors 8: C est meilleur que 02C. Ceci 
résulte des égalités 


(IC — 8C, a) = ((@r — 8)C, a) = (8 — 8, aC”?) 


et de la définition 2. 
Supposons maintenant que d? < di, c’est-à-dire que 


>df} aa; < Sd aa. (9) 
Ceci exprime que v(81) < v(62) pour les matrices V de la forme W, = la;a;l 
et donc pour les matrices diagonales Vaiss € B,, puisque ces dernières se 
représentent par la somme de £ matrices de la forme V.. Supposons mainte- 


nant que V’est une matrice arbitraire de 8 ; et C une transformation ortho- 
gonale telle que CTVC = Vaiag. AÏOTS 


v(01) = E(ôi — 6)V(01 — 6)" = E(@i — 6)CVaiagC”(81 — 6)’. 


Des deux remarques ci-dessus et de (9) il s'ensuit que le second membre de 
cette égalité est strictement inférieur à 


E(62 — 8)CVaiagC”(02 — 0)! = E(02 — 0)V(02 — 6)! = v(82). < 


Il existe un autre procédé de comparaison des dispersions quadratiques 
moyennes (cf. [19]) qui implique néanmoins que les distributions Q et Q2 
ne soient pas dégénérées dans R“ et admettent des moyennes nulles. Dans 
ce cas les matrices des moments centrés d’ordre deux d?seront définies posi- 
tives et admettront les matrices inverses 4, = (d?)”. 
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Soit d? la matrice des moments d’ordre deux de la distribution Q et soit 
A = (&)°\. 
DÉFINITION 3. On appelle ellipsoïde de dispersion de la distribution Q 
l'unique ellipsoïde 
AT £<k+2 


sur lequel sont confondus les moments d'ordre un et d’ordre deux de Q et 
de U, U étant une distribution uniforme sur cet ellipsoïde (c’est-à-dire une 
distribution dans R“ de densité constante à l’intérieur de l’ellipsoïde et nulle 
en dehors) (cf. [19]). 


LEMME 2. Supposons que les matrices di, | = 1, 2, ne sont pas dégéné- 
rées. La dispersion quadratique moyenne de Q\ autour de 0 est inférieure 
à celle de Q: si et seulement si l'ellipsoide de dispersion de Q, est contenu 
dans celui de Q:. 


DÉMONSTRATION. Supposons que l’ellipse 14117 = 1 est contenue dans 
l'ellipse 14217 = 1. On sait qu’il existe une application linéaire non dégéné- 
rée { = uL qui envoie l’ellipse ‘4117 = 1 dans la sphère unité Si et l’ellipse 
tA2tT = 1 dans une ellipse S dont les axes principaux sont de même direc- 
tion que les axes de coordonnées. Ceci exprime que 41 = LA,L7 = E(E 
est la matrice unité), A2 æ LA2L’7 = diag (\f,..., X6),0 < N° < 1, j = 
= 1,..., &. Puisque 415 ! = Eet A3! = diagQi ?, ..., Xe ?), l’ellipse 
tÀz 11 = ] sera l’inverse de l’ellipse S2 par rapport à la sphère unité S:, et 
par suite, elle sera contenue dans S1. Comme 47! = (L')-!A:L-!,en 
effectuant la transformation inverse u=tL', on trouve que l'ellipse 
LA ‘17 = tdît = 1 est située à l'extérieur de A3 lt? = 1d5t7 = 1. Il est 
évident que cette relation est valable pour les ellipses ‘dît7 = cet td5tT = 
c. Or cela signifie que l'égalité rd?t7 = centraîne tdît7= c < td5t”. La réci- 
proque se démontre de façon analogue. 

Il est important de signaler que contrairement au cas scalaire, la compa- 
raison des dispersions des distributions à l’aide des matrices des moments 
d'ordre deux n’induit qu’une relation d’ordre partiel sur l’ensemble des dis- 
tributions. Par exemple, des deux matrices d = 6 à et d = É 1) 
aucune n'est ni pire ni meilleure que l’autre, puisque le vecteur a = (1, 0) 
vérifie l’inégalité (6) tandis que le vecteur a = (0, 1), l’inégalité contraire. 
Ceci est un grave inconvénient de l’ordre introduit, bien que son adéquation 
ne fasse pas de doute. 

On peut totalement ordonner un ensemble d’estimateurs (ou un ensem- 
ble de distributions) si l’on y compare par exemple E18” — 817, oùl:1 est 
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une norme euclidienne sur R*, de sorte que 


& 
E19° — 01? = E 5} (6; — 6:). (10) 


Cette façon d’ordonner l’ensemble est déjà contestable, puisque la précision 
s'estime différemment selon les cas et les directions. Pour prendre cette cir- 
constance en compte, on peut, en guise de généralisation, considérer le cri- 
tère de précision 


v(8") = E(0° — 0)70" — 6)7, 


où est une matrice semi-définie positive (le cas (10) correspond à V = E). 

Du lemme 1 il s'ensuit que si la dispersion de 01 autour de 8 est stricte- 
ment inférieure à celle de 62, alors v(81) < v(62). La réciproque n’est généra- 
lement pas vraie : la réalisation de l'inégalité v(01) < v(82) pour une matrice 
Y donnée quelconque (l’ordre total proposé ci-dessus est basé sur une 
matrice fixe) ne signifie encore pas que la dispersion de 0: autour de 8 soit 
strictement inférieure à celle de 62. 

Passons maintenant à l’étude d’un cas paramétrique important impli- 
quant l'estimation de paramètres inconnus de distributions appartenant à 
des familles paramétriques. 


$ 8. Comparaison des estimateurs dans le cas paramétrique. 
Estimateurs efficaces 


Dans le paragraphe précédent nous avons dégagé deux approches (de la 
moyenne quadratique et asymptotique) de comparaison de la qualité des 
estimateurs. Introduisons quelques notions liées à ces approches dans le cas 
où la distribution de l’échantillon X appartient à une famille paramétrique 
P = {P,). Les symboles Es et Ve désigneront comme toujours l’espérance 
mathématique et la variance de la distribution Pa. 

1. Cas scalaire. On rappelle qu'aux termes de l’approche de la moyenne 
quadratique on dira que 81 est meilleur que 62 si 


di(8) = Eo(6i — 6) < Eo(8z — 0) = di(6). (1) 


Mais dans le cas paramétrique, 48), / = 1, 2, sont des fonctions de 6 
et l’on dira que « 01 est meilleur que @ au point 0 » si di(0) < d(6). 

La situation est identique lorsque dans le cadre de l’approche asymptoti- 
que on compare les estimateurs asymptotiquement normaux au moyen de 
leurs distributions limites. Un estimateur 0; est meilleur qu’un estimateur 
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6: au point 0° si pour les variances &æ, / = 1, 2, intervenant dans les relations 
(Or — 8)Vn € &, en, ! = 1, 2, (2) 


on a 01(0) < 02(8) ). 

Donc, dans les deux cas, la comparaison des estimateurs se ramène à la 
comparaison de fonctions : par exemple les fonctions d/(8), 8 € 6. Cet 
ensemble d’estimateurs peut être muni d’un ordre partiel de la manière 
suivante. 


RÈGLE 1. Un estimateur 61 est meilleur que 62 si d1(0) < (0) (ou res- 
pectivement 01(0) < o2(0)) pour tous les 8 € 6 et si d\(8) < (0) pour au 
moins un 6. 


S'il existe un estimateur 0; meilleur que 8”, on dira que 6° est un estima- 
teur inadmissible. 

Arrêtons-nous tout d’abord sur l’approche de la moyenne quadratique 
dans le cas scalaire et étudions les possibilités de comparaison des estima- 
teurs. Signalons d'entrée qu’il n’existe pas de meilleur estimateur au sens de 
la définition mentionnée. Autrement dit, il n'existe pas d’estimateur 0° tel 
que pour tout autre estimateur 8; l’on ait d(8) < d1(8), où di(8) est définie 
dans (1) et d(8) correspond à 6°. 

En effet, si 01 = & = const € ©, alors dÀ(8) = E,(01 — 0)? = 0 pour 
8= 061, et pour le meilleur estimateur 8° (s’il existe) on aura d?(6:)= Es, (0° — 
— 8) = 0. Comme 8 est arbitraire, il vient d?(8) = 0. Or ceci n’est possible 
que dans le cas « dégénéré » où les observations définissent de façon unique 
la valeur du paramètre 0. Par exemple, lorsque X € Ie ou À € Us. o+1et 
0 = {1,2,.:.). 

Donc, l'enveloppe inférieure des fonctions d?(8) est nulle, mais cette 
fonction n’est réalisée pour aucun estimateur 8° dans les cas « non dégéné- 
rés ». 

Ce problème peut être rendu plus consistant si l’on cherche les meilleurs 
estimateurs 8” dans des sous-classes d’estimateurs choisies de façon assez 
raisonnable. Une méthode de détermination de ces sous-classes consiste à 
fixer le biais b(6). 

DÉFINITION 1. On dit qu’un estimateur @0 € K est efficace dans la classe 
K si Es(8o — 8)? < E:(8° — 8)? quels que soient 0° € K et 8 € ©. 

La classe Ko des estimateurs sans biais (Cest-à-dire tels que b(8) æ 0) 
joue un rôle particulier. 


°) Nous avons déjà signalé que dans un grand nombre de cas dÙ8) = n° ‘of + ofn°!). 
Mais ceci ne résulte pas de la définition des nombres 48) et oÀ8). 
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Les estimateurs efficaces de la classe Ko = (0° : Eo0° = 0) des estima- 
teurs sans biais sont dits simplement efficaces. En sorte que les estimateurs 
efficaces sont des estimateurs sans biais, de variance minimale. 

La propriété d’être sans biais est, comme on l’a déjà signalé, une pro- 
priété qui est souhaitable en soi dans la mesure où elle exprime l’absence 
de toute erreur systématique. 

Pour s'assurer de l’existence l’estimateurs de biais b(8) donné (en parti- 
culier d’estimateurs sans biais) il faut résoudre une équation intégrale par 
rapport à g(x) : 


[e(x)Pe(X € dx) = 6 + b(6), (3) 
où g(X) = 0° ; le premier membre de cette équation est Es”. 
Si la condition (4,) est réalisée et s1 la fonction fe(x) = IT fo(x) est 
une fonction de vraisemblance, l’équation (3) devient nn 
(e(xfoxu"(dx) = 0 + b(6). (4) 


Signalons que l'équation (4) n’admet pas toujours une solution pour (6) 
donné et qu’en particulier les estimateurs sans biais du paramètre 0 n'exis- 
tent pas pour toutes les familles {Po}. Considérons par exemple un schéma 
de Bernoulli de paramètre inconnu p (la probabilité de l’issue {x = 1})et 
soit à estimer un paramètre 9 = #{(p), où # est une fonction donnée. L’équa- 
tion (4) devient alors 


> g(xYe(x) = 0 
x 
ou ce qui est équivalent 


2 G(k)p“ (A - p}'7* = pp), (5) 


où G(k) = >, g(x), At est l’ensemble des points x dont £ coordonnées sont 
xEALK 


égales à 1. Or le premier membre de (5) est un polynôme en p de degré n, 
donc l’équation (5) admet une solution si seulement #(p) est un polynôme 
de degré <n. 

Considérons maintenant la classe K, des estimateurs de biais b(8) fixé 
et supposons qu’il existe un estimateur efficace dans K4. 


THÉORÈME Î. /l existe un Seul estimateur efficace de K+ aux valeurs 
près sur un ensemble À C :7” tel que Pe(A) = 0 pour tous les 8 € 6. 


DÉMONSTRATION. Soient 60 et 01 deux estimateurs efficaces dans 4. 
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Posons 
= Vébi, A = 6-6, 6° = ee, 1=0,1 
Puisque 
(ea). es) _ = 
ei. 6° — 0, Ao — À = 65 — 6! ” 
il vient 
Eo(8* — 0)? + Eo(5 — 6iŸ = D + b°(6). D 


Or 8° € Ks. Donc, E:(8° — 0)? > D + b°(6). De (7) il s'ensuit alors que 
Eo(8o — 81) < 0 


8; = 6 presque partout ‘). € 

Restons encore dans le cadre de l'approche de la moyenne quadratique 
et introduisons la 

DÉFINITION 2. On dit qu’un estimateur 60; € K est asymptotiquement 
efficace dans K si 


| E,(6: — LE 
I £ 1, 
cer E@° — 6) 


quels que soient 9” € K et 8 € ©. 

Passons maintenant à l’approche asymptotique à laquelle la définition 
2 est aussi étroitement liée. Le problème consiste comme précédemment à 
comparer des fonctions o(8) caractérisant la distribution normale limite, 
mais la situation est dans l’ensemble légèrement simplifiée. D’abord parce 
que la comparaison est effectuée dans la classe des estimateurs asymptoti- 
quement normaux, qui sera désignée ultérieurement par K+. On peut res- 
treindre cette classe sans l’appauvrir. Plus exactement, on étudiera la classe 


(8) 


*) On a la proposition suivante qui généralise dans un certain sens le théorème 1. Si & 
est un estimateur efficace de K, et 0” un estimateur de K4 tel que h = MVo85/V98° < 1, alors 
le coefficient de corrélation (60, 0°) entre @o et 0° est égal à Vh. 

Le lecteur pourra s'exercer à prouver ce fait en s'assurant que, si e(60, 8°) # Vh et si æ est 
convenablement choisi, l'estimateur 


1 = (1 — a) + of” € Ke 
vérifiera l'inégalité Voe0i < Vos qui contredit l'efficacité de 66. 
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Ke. 2 C Ke des estimateurs asymptotiquement normaux 6° pour lesquels 
la convergence 


(6° — 6)Vn (= Bo, (9) 
a lieu en même temps que celle des moments d'ordre un et deux 
Es(8° — 6)Vn — 0, E(9° — 8)°n — (8). (9) 


A noter que la première de ces relations se déduit sans peine de la deuxième 
à laide du théorème de continuité pour les moments ($ 1.5). 

La restriction de Ke à Ke, 2 appauvrit peu la première classe pour les 
deux raisons suivantes. Premièrement, les estimateurs asymptotiquement 
normaux violant (9) ne se rencontrent pratiquement pas (nous avons vu 
qu’ils impliquaient des constructions artificielles). Deuxièmement, d’après 
le lemme de Fatou, pour 6° € Ke,ona 


lim. inf Esx(8° — 0)? > o°(6) 


(nous avons affaire à des intégrales de fonctions positives), de sorte que 
Esn(0° — 9)° peut être seulement supérieure à o(8) pour les grands n#. Or 
il est peu probable que les estimateurs doués de cette propriété puissent con- 
currencer les estimateurs vérifiant (9). 

Donc, dans l’approche asymptotique, pour classe des estimateurs 
asymptotiquement normaux dans laquelle a lieu la comparaison, on peut 
prendre la classe Ke, 2 pour la commodité. 

Soit X une classe d’estimateurs telle que X C Ke, 2. La définition sui- 
vante est équivalente à la définition 2. 

DÉFINITION 3. On dit qu’un estimateur 0: € K est asymptotiquement 
efficace dans K si quels que soient 8 eKeæt8€eO 


oi(8) < 9°(6) (10) 

où o°(8) et o?(8) sont les paramètres de dispersion de 9” et 0; respectivement. 

L’équivalence de ces définitions résulte du fait que pour 0° € Ke.2,0na 
E(8° — 6) = cs) (1 + re(0)), 72(0) — O pour n — ©. 


Dans ce cas, la relation (8) qui exprime que 
Es(@r — 0) < Es(8” — GJ(1 + r2(0)), ra(8) — 0, 
pour tout 8” € K, est visiblement équivalente à l’inégalité (10). < 
La simplification évoquée dans l'approche asymptotique consiste en la 
comparaison des seules variances des lois limites. Le biais n’importe plus 
puisque dans la classe Ke. 2, en vertu de (9), est réalisée la relation b(8) = 
= o(1/Vn) qui exprime que les estimateurs sont « pratiquement sans biais » 
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ou que le biais est « asymptotiquement négligeable » du point de vue des 
relations (2). 
Par analogie au théorème 1, on a le 
THÉORÈME 2. Soit K C Ke. 2. Si 01 et 62 sont deux estimateurs asymp- 
totiquement efficaces de K tels que à (8: + 62) € K, ils sont alors asymp- 
totiquement confondus, c'est-à-dire que 
VA(6i — 65) - 0, Es[Vn(8i — 85) — 0. 


DÉMONSTRATION. II nous suffit de prouver la deuxième relation, puis- 
que la première en est une conséquence. Soit 


61 + 6 


Mi, n = Eon(6i — 6), A = 6; — 0, 0° = ro L 2 
En vertu de (6), on obtient alors 
Eon(0” — 0) + 2 Eon(0} — O2) = (Mi x + M. »)/2. (1) 


Or 8° € K, donc en passant à la limite dans la dernière égalité, on trouve 
en vertu de l'efficacité asymptotique de &; que 


lim Esn(8i — 8) < 0. <« 


Les considérations développées ci-dessus n’indiquaient qu’une des éven- 
tuelles méthodes d’acquisition des estimateurs (des estimateurs efficaces 
ici} qui sont meilleurs que les autres pour des critères naturels. Il existe tou- 
tefois d’autres méthodes (signalons qu’il nous faut comparer des éléments 
non ordonnés : des fonctions d(8) ou o(8)). Etant donné qu’il n'existe pas 
en général d’estimateurs dont d(8) soit minimale pour chaque 6, on peut 
comparer par exemple les valeurs moyennes (date, où g(t) > 0, 

qg{t}dt = 1, ou les valeurs maximales ne d(8). Nous avons là deux façons 


d’ordonner l’ensemble de fous les estimateurs. 

Le premier procédé sera appelé ultérieurement bayésien, le second, 
minimax. Les estimateurs optimaux bayésiens et minimax seront traités au 
$ 11, les estimateurs efficaces, dans les paragraphes suivants. 

Le problème du choix des estimateurs sera examiné avec plus de détails 
à la fin de cet ouvrage (cf. avant-propos). 

2. Cas vectoriel. Considérons maintenant le cas où 8 et 8” sont des vec- 
teurs de R“. La comparaison des estimateurs est plus délicate ici. En effet, 
dans le cas vectoriel, nous avons été contraints d’introduire un ordre partiel 


8—4195 
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pour comparer les estimateurs à 0 fixe. Pour comparer les estimateurs sur 
l’ensemble © tout entier, il nous faut, comme dans le cas scalaire, introduire 
un ordre partiel mais dans une « autre direction » (la comparaison est effec- 
tuée à l’aide de l'écart quadratique moyen qui est une fonction de deux 
variables : 8 et le vecteur a sur lequel est projeté l'écart 8° — 8). 

Les meilleurs estimateurs dans ces « deux directions » font l’objet des 
définitions suivantes. 

DÉFINITION 4. On dit qu’un estimateur 65 est efficace dans la classe K 
si la dispersion quadratique moyenne de 8° autour de 8 est supérieure à celle 
de 6 quels que soient 9” € K et 8 € ©. 

Cette définition équivaut à la suivante. 

Un estimateur vectoriel 86 de 8 est efficace dans K si pour tout vecteur 
a l’estimateur &o = (00, a) est un estimateur efficace du paramètre æ = (6, 
a) dans la classe des estimateurs &” = (8°, a), 0” € K, c’est-à-dire que pour 
tous les e0,aceR*“,6EeK 


Eo(do — 0, a)? < Eo(0° — 8, a)” (12) 


Nous avons vu que cette inégalité peut s’écrire sous la forme équivalente 
d5(8) < d?(8) ou 


Sd (B)aia; < > dijaia; 
5 i, j 


pour tous les 0 € ©, a € R“, où d?(8) = Ud;{8)l et d5(8) = Id (8)1 sont 
les matrices des moments d’ordre deux de 8” — 8 et 85 — 8 respectivement. 

Les estimateurs efficaces de la classe X0 des estimateurs sans biais sont 
tout simplement dits efficaces. 

Etant donné que la définition (12) de l'efficacité est fondée sur l’utilisa- 
tion du cas scalaire, le théorème 1 nous permet d'établir immédiatement 
qu’il existe un seul estimateur efficace dans la classe X% des estimateurs de 
biais fixe b(8) = E8° — 6. 

La définition des estimateurs asymptotiquement efficaces dans le cas 
vectoriel est calquée sur les définitions 2, 3. 

DÉFINITION 5. On dit qu’un estimateur vectoriel 81 d’un paramètre 8 est 
asymptotiquement efficace dans K si pour tout vecteur a, l’estimateur (61, 
a) est un estimateur asymptotiquement efficace du paramètre scalaire « = 
= (0, a) dans la classe des estimateurs &«' = (9°, a), 8° € K. 

En d’autres termes (cf. $ 7), la dispersion quadratique moyenne de la dis- 
tribution limite de (0; — 8)Vn est minimale pour les estimateurs asymptoti- 
quement efficaces. Ce qui exprime que pour tous 9 € K, ae R*,8€ ©, 
on a 0?(8) < o°(8), ou 


4, J 


Sol} (O)aia; < Doi(B)a:ia;, 
i, j 
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où o2(8) = 1o;8)1, of(6) = Hof}(8)E sont respectivement les matrices des 
moments d’erdre deux des distributions limites de (0° — 8)Vn et de (01 — 
— O)Vn. 

Du paragraphe précédent on déduit que dans le cas vectoriel l’ensemble 
des estimateurs à 9 fixe peut être ordonné si la qualité d’un estimateur est 
mesurée (dans l’approche de la moyenne quadratique) par 


v(0°) = Eo(0” — 078" — 077 = v(0", 0), (13) 


où est une matrice semi-définie positive. On pourrait envisager une quan- 
tité analogue faisant intervenir la matrice des moments d’ordre deux de la 
loi normale limite dans le cas de l’approche asymptotique dans la classe 
Ke,2. 

En poussant plus loin dans cette voie, on peut ordonner totalement 
l’ensemble de tous les estimateurs pour l’ensemble @ tout entier. Plus exacte- 
ment, on peut comparer les moyennes 


[v@”, 9) qtdt, a) > 0, fatodr = 1, 
ou les valeurs max v(6”, r) de v(6”, 0) définies dans (13). 
tE 


Si le meilleur estimateur au sens de cette approche restera le meilleur 
pour toute matrice V semi-définie positive, c’est que, en vertu du lemme 7.1, 
il sera le meilleur au sens de l’ordre partiel défini au $ 7 (autrement dit la 
moyenne de la dispersion quadratique moyenne sera minimale dans toute 
direction). 

Pour construire des estimateurs optimaux au sens des définitions envisa- 
gées dans ce paragraphe, nous aurons besoin des notions et des propriétés 
des espérances mathématiques conditionnelles et des statistiques 
exhaustives. 


$ 9. Espérances mathématiques conditionnelles 


Dans ce paragraphe, on rappelle la définition et les principales proprié- 
tés des espérances mathématiques conditionnelles. Pour un exposé plus 
complet voir Annexe III ainsi que [11], [17], [24], [34], [531]. 

1. Définition de l’espérance mathématique conditionnelle. Soient £ et 
deux variables aléatoires définies sur un espace probabilisé (Q, %, P). 

L'espérance mathématique conditionnelle E(£!B) de la variable aléatoire 
£ par rapport à l'événement B P(B) > 0, est définie par la relation 


E(E18) = HET, (1) 
où E(£ ; B) = [£ dP = E(&ls), 18 = Ie(w) est une variable aléatoire égale 


B 
à l’indicateur de l’ensemble B. 


#: 
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Supposons que £ et n sont indépendantes, B = {n = x} et P(B) > 0. 
Pour toute fonction mesurable «(x y), on a alors en vertu de (1) 


Ele(£, n)1n = x] = AACRUJÉLEXR ä URL = Ev(£, x). (2) 


La validité de la dernière égalité découle de l’indépendance des variables 
aléatoires &(£, x) et Z4, = n} en tant que fonctions de £ et n respectivement, 
et par suite 

Ep(£, x = Ep(E, X)Elpun = Ev(é, X)P(n = x). 


Les relations (2) montrent que la notion d'espérance mathématique co..- 
ditionnelle garde son sens dans le cas aussi où la probabilité de la condition 
est nulle : en effet l'égalité 


Elv(E, n)in = x] = Ev(f, x) 


pour £ et 7 indépendantes est naturelle en soi et n’est en aucune façon liée 
à l’hypothèse que P(n = x) > 0. 

Soit # une sous-tribu de %. Définissons la notion d’espérance mathéma- 
tique conditionnelle E(£1%) d’une variable aléatoire £ par rapport à #. Nous 
donnerons tout d’abord cette définition dans le cas « discret » sous une 
forme facilement généralisable. 

Nous appellerons « discret » le cas où la tribu Y est engendrée par une 
suite au plus dénombrable d'événements disjoints A1, 42, ... ; U 4; = Q, 
P(4;) > 0. On notera ce fait par le symbole A = o(41, A2, . . .) qui exprime 
que les éléments de À sont toutes les réunions possibles des ensembles A1, 
A2, ... 

Construisons une nouvelle variable aléatoire £ = Ë(w) à l’aide de £ et du 
système d'événements (41, 42, . ..) de la manière suivante : 


E(E ; Ai) 


Ë = yx æ E(tlA:) = PCA) 


pour w€ Ar, K = 1,2,... 


En d’autres termes 
£ E(E ; Az) 


= | 
1" PCA) in 


où Z4 est l’indicateur de l’ensemble À. 

DÉFINITION 1. La variable aléatoire Ë s'appelle espérance mathématique 
conditionnelle de £ par rapport à la tribu A et se note E(E£ | A). 

Ainsi, l'espérance mathématique conditionnelle E(£ | Ÿ) est une variable 
aléatoire contrairement aux espérances mathématiques ordinaires. Dans 
notre cas, elle est constante sur les ensembles A4 et égale à la moyenne de 
£ sur A4. Si £ et NA sont indépendantes (autrement dit, si P(£ € B ; Ak) = 
= P(£ € B)P(AL)), il est alors évident que E(£ ; 441) = E£P(AL) et £ = Et. 
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Si A = $, alors % est « discrète » aussi, £ est constante sur les ensembles 
Aa, et donc Ë = £. 

Signalons les deux propriétés fondamentales suivantes de l'espérance 
mathématique conditionnelle : 

1) Ë est mesurable par rapport à %. 

2) Pour tout événement À € 4 on a 


E(Ë ; À) = E(# ; À). 


La première propriété est évidente. La deuxième résulte du fait que tout 
événement À € Ÿ peut être représenté sous la forme À = UAi, donc 


E(Ë ; 4) = ZEG s Ajx) = D Yi P(Aix) = ZE * Aix) = EE ; À). 


Cette propriété est suffisamment claire : la moyennisation de £ sur l’ensem- 
ble À nous fournit le même résultat que la moyennisation de la quantité £ 
déjà moyennisée sur À,,. 


LEMME 1. Les propriétés 1) et 2) définissent de façon unique l'espérance 
mathématique conditionnelle et sont équivalentes à la définition 1. 


DÉMONSTRATION. Nous avons déjà prouvé que les propriétés 1) et 2) 
découlaient de la définition 1. Supposons maintenant que sont réalisées les 
conditions 1 et 2. La mesurabilité de Ë par rapport à % exprime que £ est 
constante sur les ensembles 4:. Désignons par y» la valeur de Ë sur A4: 
Comme A4 € A, il s'ensuit de la propriété 2 que 


E(Ë ; 4x) = JxP(Ar) = E(E ; An), 
donc, pour w € A4, 


2 E(£ ; x) 
PT RAD 

Nous pouvons donner maintenant une définition générale de l'espérance 
mathématique conditionnelle. 

DÉFINITION 2. Soient £ une variable aléatoire sur un espace probabilisé 
(Q, $, P) et A une sous-algèbre de ÿ. On appelle espérance mathématique 
conditionnelle E(£ | ®) de £ par rapport à Y la variable aléatoire £ dotée des 
deux propriétés suivantes : 

1) Ê est mesurable par rapport à {. 

2) E(Ë ; A) = E(# ; À) pour tout À € Ÿ. 

Dans cette définition, la variable £ peut être aussi bien scalaire que 
vectorielle. 
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Deux questions viennent immédiatement à l'esprit : la variable Ë existe-t- 
elle et est-èlle unique ? Dans le cas « discret » nous avons répondu par 
l’'affirmative à ces questions. Dans le cas général, on a le 


THÉORÈME 1. Si E|£| est finie, la fonction Ë = E(£| %) de la défini- 
tion 2 existe toujours et est unique presque partout, sauf peut-être sur un 
ensemble de probabilité nulle. 


DÉMONSTRATION. Supposons tout d’abord que £ est scalaire, £ > 0. La 
fonction d’ensemble 
Q(A) = [EtdP = Et; 4), À € Y, 


A 


sera alors une mesure sur (Q, N) absolument continue par rapport à P, puis- 
que P(A) = 0 entraîne Q(A) = 0. Donc, d’après le théorème de Radon- 
Nikodym ([11], Annexe 3), il existe une fonction £ = E(£ | Y) {-mesurable, 
unique aux valeurs près sur un ensemble de mesure nulle, telle que 
Q(4) = [ Éd. 
A 

Dans le cas général, posons £ = £* — £7,E£* = max(0, à) > 0, £7 = 

= max(0, —-£) > O, 
£ a £* ES ET , 

où Ë* est l'espérance mathématique conditionnelle de £*. Ceci prouve 
l’existence de l'espérance mathématique conditionnelle, puisque £ satisfera 
les conditions 1), 2) de la définition 2. D'où l’unicité de £, puisque, le cas 
échéant, Ë* et £” ne seraient pas uniques. La démonstration pour les £ vec- 
torielles se ramène au cas scalaire, car les propriétés 1) et 2) seront satisfaites 
par les coordonnées de Ë dont l’existence et l’unicité ont été prouvées. 

L'idée de la démonstration réalisée est assez claire : d’après la condition 
2 la quantité E(Ë ; A) = | ÉdP est définie pour tout À € Ÿ, c’est-à-dire que 

A 

sont données les valeurs des intégrales de Ë sur tous les ensembles 4 € Y. 
Il est évident que ceci doit définir une fonction Y- mesurable Ë qui est uni- 
que aux valeurs près sur un ensemble de mesure nulle. 

Le sens de E(£19 reste le même : C’est grosso modo la moyenne de £ sur 
les éléments « non divisibles » de J. 

Si À = &, il est évident que Ë = E£ satisfait les conditions 1), 2), et par 
suite E(£1%) = E. 

DÉFINITION 3. Soient £ et n des variables aléatoires sur (Q, %, P), À = 
= 9{n) la tribu engendrée par 7. Alors la quantité E(£1%) s'appelle aussi 
espérance mathématique conditionnelle de £ par rapport à n. 
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Pour simplifier l’écriture on écrira parfois E(£ln) au lieu de E(£lo{n)). 
Ceci n’entraînera aucune confusion. 

Vu que E(£ | n) est par définition une variable aléatoire o{7)-mesurable, 
cela signifie (cf. [11]) qu’il existe une fonction mesurable g(x) telle que 


E(£ln) = g(n). (3) 


Par analogie au cas discret, nous pouvons interpréter la quantité g(x) 
comme la moyenne de £ sachant que {n = x}. (On rappelle que dans le cas 
discret g(x) = E(£ln = x).) 

DÉFINITION 4. Si £ = JC est l’indicateur d’un ensemble C € %, on dira 
que E(/c I) est la probabilité conditionnelle P(CIM) de l'événement C par 
rapport à À. Si A = o(n), on parlera de la probabilité conditionnelle P(C1\7) 
de l’événement C par rapport à n. 

2. Propriétés de l’espérance mathématique conditionnelle. 

1) L'espérance mathématique conditionnelle satisfait les propriétés ordi- 
naires des espérances mathématiques (cf. [11]) à la seule différence qu’elles 
sont réalisées presque sûrement : 

la) E(ct | M) = cE(£ | NN), où c = const, 

Ib) EC + 2%) = EN + E(& |%, 

ic) si  < 2 presque sûrement, alors E(ä |) < E(2 | N. 

2) On a l'inégalité du genre inégalité de Tchébychev : si £ > 0 est réelle, 
pour tout x > Oona 


pe > x|a < FEI 


Comme dans le n° 1 cette relation est réalisée presque sûrement. Cette 
convention sera valable pour toutes les relations mettant en jeu des espéran- 
ces mathématiques conditionnelles. 

3) Si les tribus À et o{£) sont indépendantes, E(£| A) = Et. 

De là il s'ensuit en particulier que si £ et n sont indépendantes, on a 
E(t|n) = Et. Si la tribu Ÿ est triviale, on obtient de toute évidence 
E&|919= = Et. 

4) Les espérances mathématiques conditionnelles vérifient les théorèmes 
de convergence pour les espérances mathématiques ordinaires. Le théorème 
de convergence monotone, par exemple, s’'énonce : si & T &, & > 0, alors 
E(£ | MTE(E | 9) p.s. 

5) Si n est scalaire et A-mesurable, E|£| <æet Eltn| < , alors 


E(nt|9) = nE(E | 0. 


En d’autres termes, les variables aléatoires Ÿ-mesurables se conduisent 
comme des constantes vis-à-vis de l’opération E(: | ) (cf. propriété 1a). 
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6) L'espérance mathématique conditionnelle vérifie toutes les inégalités 
fondamentales relatives à l'espérance mathématique ordinaire et en particu- 
lier l’inégalité de Cauchy-Bouniakovski 


E(aë| [90 < (E&f| ME& |)" 


et l'inégalité de Jensen : si E|£| < , alors pour toute fonction g(x) con- 
vexe vers le bas on a 


g(EE|N) < EG |9. 
7) Formule des probabilités totales (propriété 2 de la définition 2 pour 


A =" 
Et = EE(|%. 


8) Moyennisation successive (généralisation de la propriété 7)) : si { C 
C Yi C Ÿ, alors 


E(&|9 = E(E(E | %) | 9. 


La démonstration de ces propriétés est accessible dans l'Annexe III. 

Il est évident que les propriétés 1), 3), 4), 5), 7), 8) sont valables pour 
les variables aléatoires aussi bien scalaires que vectorielles. Signalons tout 
particulièrement la propriété suivante de l'espérance mathématique 
conditionnelle. 

9) On sait que la fonction g{(a) = E(£ — a)? atteint son minimum pour 
a = EE (cf. par exemple [11]). Une propriété analogue est valable pour 
l'espérance mathématique conditionnelle : {a fonction E(£ — a(w))° atteint 
son minimum sur les fonctions a(w) Y-mesurables pour a(w) = E(E | N. 

En effet, E(£ — a(w)}? = EE((£ — a(w)) 199). Mais a(w) se conduit 
comme une constante vis-à-vis de l’opération E(- | AXcf. propriété 5)), donc 


E((& — a(w)) | 9) = E((& - E(&|9)|99 + E(E(&|%) — a(w)) | 9, 


et cette expression atteint son minimum pour a(w) = E(£|%). Cette pro- 
priété peut tenir lieu de définition de l'espérance mathématique condition- 
nelle équivalente à la définition 2 et aux termes de laquelle E(£ | %) peut être 
traitée comme la « projection » de £ sur Y. 

La propriété 9) admet la généralisation suivante au cas où £ = (£, ... 
..., &s) est un vecteur aléatoire de R:. 

9A) Soient V = Av; une matrice semi-définie positive d'ordre s, a € R° 
el 


(a) = (E — a)V(E — a)° 
(pour V = E on a en particulier #(a) = |£ — a|*). Alors la fonction 
Et(a) atteint son minimum sur la classe À des fonctions A-mesurables pour 


a(w) = E(E| 2). 
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DÉMONSTRATION. Elle est calquée sur le cas scalaire. Posons œ = 
= E&|#. Alors Et(a) = EE({(a) | 2) et 


E(r(a)| 9) = E(E — a)VE — a)" | 9 = 
= E((E — a)V(E — a)! | 9) + El(a — a)V(E — a) | %) + 
+ E((Œ — a)V(a — a) | 9 + El(@ — a)V(a - a)'|®M. (4) 
Comme œ — a est un vecteur Y-mesurable, la propriété 5) nous donne 
E((a — a)V(E — a)7|® = (x — a)VE((E — a)" |% = 0, 
E((£ — a)V(a — a)" |) = [EE - æ)|M]V(x - a)! = 0. 


Le dernier terme de (4) étant positif, et nul pour a = «, on obtient ce qu’on 
voulait. € 


$ 10. Distributions conditionnelles 


Outre les espérances mathématiques conditionnelles, on peut envisager 
les distributions conditionnelles par rapport à des sous-tribus et à des varia- 
bles aléatoires. Dans ce paragraphe on étudiera les distributions condition- 
nelles par rapport à des variables aléatoires. 

Soient £ et n des variables aléatoires sur (Q, %, P) à valeurs respective- 
ment dans R° et R*, et soit 8° la tribu des boréliens de R°. 

DÉFINITION 1. On dit qu’une fonction P(B | y) des variables yeR“ et 
BE” est une distribution conditionnelle de ?£ par rapport à la condition n = 
= } Si 

1) pour tout B la fonction P(B | n) est la probabilité conditionnelle P(£€ 
€B | n) de l'événement {£ € B} par rapport à n, autrement dit P(B| y) est 
une fonction borélienne de } telle que pour tout À € %* 

E(P(B | n) ; n € À) = (P(B| y)P( € dy) = PŒÆ € B n € À); 
A 
2) P(B| y) est la distribution des probabilités sur B pour tout y. 
Nous écrirons parfois la fonction P(B21y) sous la forme plus détaillée 


P(By) = P(£ € Bln = y). 


Nous savons que pour tout B € 8° il existe une fonction borélienne gs(}) 
telle que gs(n) = P(£ € Bln). En posant P(Biy) = gs(y) on satisfait la con- 
dition 1) de la définition 1. Mais alors la condition 2) ne découle en aucune 
façon des propriétés de l'espérance mathématique conditionnelle et ne doit 
pas être nécessairement réalisée : en effet, la probabilité conditionnelle 
P(£ € Bin) est définie pour tout B aux valeurs près sur un ensemble de 
mesure nulle Nz3 (de sorte qu'il existe plusieurs variantes d’espérances 
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mathématiques conditionnelles) et cet ensemble peut varier d’un ensemble 
B à un autre. Donc, si la réunion N = UN: a une probabilité non nulle, 
B€ 


il est possible que, par exemple, pour aucun w de N l'égalité 
P(E € BiUBiln) = P(E € Biln) + P(E € B2ln) 


(qui exprime l’additivité de la probabilité) ne soit réalisée simultanément 
pour tous les B, et B disjoints de 8°, c’est-à-dire que la fonction gs(y) ne 
sera pas une distribution (en tant que fonction de B) sur un w-ensemble N 
de probabilité strictement positive. 

Mais dans notre cas où £ est une variable aléatoire à valeurs dans R° 
muni de la tribu des boréliens 8°, la fonction gs(n) = P(E € Bin) peut tou- 
jours être choisie de telle sorte que gg(y) soit une distribution conditionnelle 
(cf. [24], [34)). 

Comme il fallait s’y attendre les espérances mathématiques condition- 
nelles s’expriment par des intégrales par rapport aux distributions condi- 
tionnelles. 


THÉORÈME 1. Pour toute fonction mesurable g(x) de R° dans R telle que 
Elg(£)! <, on a l'égalité 


E(g(&) 1m) = (g(x)P(ax1n). (1) 


DÉMONSTRATION. Il suffit de traiter le cas où g(x) > 0. Si g(x) = Za(x) 
est l’indicateur de l’ensemble À, la formule (1) est manifestement vérifiée. 
Donc, elle est valable pour toute fonction simple g.(x) (Cest-à-dire pour 
toute fonction prenant un nombre fini de valeurs). Reste à considérer une 
suite g,Îg et à se servir de la monotonie des deux membres de (1) et de la 
propriété 4) du $ 9. < 

Pour calculer les distributions conditionnelles, on peut se servir de la 
règle élémentaire suivante que, pour plus de suggestion, nous écrirons sous 
la forme 


__ n\ - PEEB n € dy) 
P(£ € Bln = }) PG € dy) (2) 
Il est évident que les deux conditions de la définition 1 sont formellement 
remplies. 
Si £ et n admettent des densités de probabilité, cette égalité acquiert une 
signification exacte. 
DÉFINITION 2. Supposons que la distribution conditionnelle P(B1|y) 
est, pour tout y, absolument continue par rapport à une mesure x dans R* : 


P(E € Bin = y) = [fx )u(dx). 
B 
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Alors la densité f(xl y) s'appelle densité conditionnelle de E (par rapport à 
la mesure y) sachant que n = y. 

En d’autres termes, la fonction /(x|y) mesurable par rapport à x et y est 
densité conditionnelle de £ sachant que n = y si 

1) pour tous boréliens A € R*, B C R° 

[  [ SxIp)u(dx)P(n € dy) = PE € B n € À); (3) 
CEA xeB 
2) la fonction f{x|y) est une densité de probabilité pour tout y. 
Du théorème 1 il s'ensuit que si existe la densité conditionnelle, on a 


Et&(#) 1m) = [gx Imutdx). 


Si l’on admet accessoirement que la distribution de n admet la densité 
q(y) par rapport à une mesure À dans R*, alors la relation (3) peut être mise 
sous la forme 

[ | SxI»)aO)(dxAdy) = PE € B n € A). (4) 
YA xreB 

Considérons maintenant le produit direct des espaces R° et R“, et sur 
ce produit le produit direct des mesures u X X(sC=BxA4,BCR;, 
A © RŸ, alors y X MC) = u(B}\(A)). La relation (4) exprime de toute évi- 
dence que la distribution conjointe &2 £ et de » dans R° X R* admet par 
rapport à  X À une densité égale à 


SG ») = fx»)q0). 


On a le théorème réciproque. 


THÉORÈME 2. Si la distribution conjointe de £ et de n dans R° X R* 
admet une densité f{x, y) par rapport à  X X, alors la fonction 


_ JG }) . - 
fx = Es où 40) | fx Patdx), 


est la densité conditionnelle de £ sachant que n = y, et la fonction q(y), la 
densité de n par rapport à la mesure X. 


DÉMONSTRATION. Relativement à g(y) cette proposition est évidente, 
puisque PONCOE P(n € À). Reste à remarquer que f{x\y)=/(x y)/q0) 
A 
satisfait toutes les conditions de la définition 2 de la densité conditionnelle 
(l'égalité (4) qui est identique à (3) est réalisée de façon évidente). 
REMARQUE I. Les variables aléatoires £ et n peuvent être permutées 
dans le théorème 2. Dans ces conditions, outre f{xly) il existe la densité 
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conditionnelle 


av19 = 2, jo = [fx PAG), 


de la variable aléatoire n sachant que £ = x. Cette conséquence élémentaire 
du théorème 2 jouera un rôle important dans la suite de l’exposé. Appliquée 
aux problèmes de statistique, elle nous permettra d'établir la formule de 
Bayes qui sera utilisée tout au long de cet ouvrage. 

EXEMPLE 1. Soit #4, & la distribution normale à deux dimensions des 
variables Het &, où & = (on, 2), œ = Eb, 0° = lol, oy = E(ë — «)Xt- 
— œj), à j = 1, 2. Le déterminant de la matrice des moments d’ordre deux 
est égal à 


lo?l = o11022 — of2 = ouo21 — 0°), 


où @ est le coefficient de corrélation entre #& et &. Donc, si lol # 1, la 
matrice des moments d'ordre deux n'est pas dégénérée et son inverse est 


_ y À O22 —O12h 
ÊT () 7 Jo?l 5 au _ 


1 _ e 
1 O11 Von 
— p? 1 
l =0 _ (4 he 
Von» 022 


Par conséquent, la densité conjointe de £, et de & (par rapport à la 
mesure de Lebesgue) est égale à (cf. $ 2) 


JC }) = X 
2701102V1 — eo” 


2 
_— [- z 1 [ 2) _ 2e&-æ)0-œ) or |). 


1-0 O11 Von o2 o22 


Les densités de # et de & sont respectivement égales à 


x - a,» 
1 
X) = e Wu , 
JX) rl Zo 
O-a,} 
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Donc, la densité conditionnelle de £ sachant que & = y est 


= | exp {- 1 x-m-@ Or1 G-=) }: 
V2rou(1 - ç?) 2ou(1 — 0?) \ O22 ? 


on reconnaît ici la densité de la distribution normale de moyenne a1 + 
+0 20 — œ) et de variance ol — 2). De là il s'ensuit en particu- 


lier que l’espérance mathématique conditionnelle de £ par rapport à &E est 


El) = œ +0 feu (E — æ). 


La droite x = œ1 + @ Ee (> — œ) s'appelle droite de régression de & 
en à. Elle donne les meilleures approximations en moyenne quadratique de 
à sachant que E = y. 

EXEMPLE 2. Soit à calculer la densité d’une variable aléatoire £ = w{(ÿ, 
n), où t et n sont indépendantes. De la formule (3) pour 4 = R“ il résulte 
que la densité /{x) de la distribution de £ s'exprime en fonction de la densité 
conditionnelle f{xly) par l'égalité 


Jo = PXINPG € dy). (S) 


Dans le problème posé, par /{x1 y) il faut comprendre la densité de la varia- 
ble aléatoire g{ÿ, yX puisque P(£ € Bin = y) = P(e{(f, y)e B). 


La formule (5) est très utile pour le calcul des distributions des statisti- 
ques. Au n°6 du $ 2 par exemple, on aurait pu écrire directement la formule 
(2.7) de la densité de la distribution de Fisher sans la déduire de la forme 
de la fonction de répartition. 


8 11. Approches bayésienne et minimax de l’estimation des paramètres 


Le principe de l’approche bayésienne consiste à traiter le paramètre 
inconnu 0 comme une variable aléatoire admettant une densité de probabi- 
lité g(f), t € 9, (connue ou non) par rapport à une mesure À au:, comme 
la mesure y de la condition (4,), sera soit la mesure de Lebesgue, soit une 
mesure discrète. La densité g(f) s'appelle densité a priori. L'approche bayt- 
sienne suppose que le paramètre inconnu 8 est un paramètre aléatoire de 
densité de probabilité q(f). 

Supposons par ailleurs que f(x), { € 6, x €.7”, est la fonction de vrai- 
semblance introduite au $ 6. Comme déjà signalé, pour chaque ! la fonction 
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f(x) est une densité de probabilité dans 7”. Donc, la fonction 
JG, 0 = f(x)q() 


est la densité d’une distribution dans 72” X © par rapport à la mesure 
u” X À, qui peut être interprétée comme la densité de la distribution con- 
jointe de X et de 8. Dans cette approche, le théorème 10.2 nous dit que la 
fonction f(x), x €. ”, est la densité conditionnelle de X sachant que 0 = t: 


fix) = fn, Eog(A) = E&(x16). 


Dans ces considérations, l’aspect formel des choses implique que f(x) 
soit mesurable par rapport à f et à x. On admettra qu’il en est ainsi partout 
où cela est nécessaire. 

Dans la suite, le paramètre sera désigné par 0 s’il est traité comme une 
variable aléatoire, et par f, u, etc., s’il est fixé, de sorte que 


Ez(X) = E&g(*18 = r). 
On peut, en plus de /{x1r), écrire la formule de la densité conditionnelle 
q{t\x) de la variable 8 sachant que X = x: 


__ f(x)q() : 
q(lx) = —f© SX) = Fieatonan (1) 


Cette densité définit la distribution a posteriori de 8 que l’on désignera par 
Q.. L'égalité (1) s'appelle formule de Bayes de la densité de la distribution 
a posteriori. Cette formule jouera un rôle important dans la suite de 
l'exposé. 

Dans l’approche bayésienne, la propriété 9 de l’espérance mathématique 
conditionnelle exprime que parmi les fonctions 9* = #{X) le meilleur esti- 
mateur de 8 (au sens de la minimisation de E(8 — #(X))}°) est la fonction 


04 = E(8IX) = EUENC? = [roxan (2) 


DÉFINITION 1. L'estimateur 686 défini par les formules (2), (1) s’appelle 
estimateur bayésien associé à la distribution a priori Q de densité q(t). 
Signalons encore que la dispersion quadratique moyenne 


E(8* — 6)? = EE((8* — 0)218) = EEo(8* — 6) = 
= (E8* — 1) ?q(A(r) (3) 


atteint son minimum pour un estimateur bayésien. La relation (3) montre 
qu’un estimateur bayésien minimise la valeur moyenne (de fonction de 
poids q(t)}\(dt) donnée) de E(8* = t)°. 

Autrement dit, si 9 est un paramètre aléatoire de densité q(f), le meilleur 
estimateur au sens de l'approche de la moyenne quadratique est un estima- 
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teur bayésien. La dispersion quadratique moyenne (3) d’un estimateur bayé- 
sien peut être mise sous la forme (cf. (1)) 


E(6$ — 6)? =[E{88 — r'q(xtar) = 
= [GC — 08) a ON da" (dx) = fo fu" (dx) = Eoès 
où Où est la variance de la distribution a posteriori Qx : 
ex =[U - 08) qu IX) = [GC - EBIM) Qx(ar). (4) 


L'autre méthode de comparaison des estimateurs, mentionnée au $ 8, 
consiste à comparer sup E{0* — #}?, où l € 6 est un sous-ensemble donné 
1er 


de 6 (T est confondu soit avec 6, soit avec la partie de © au sujet de 
laquelle on a réussi à établir que 0 € F). 

DÉFINITION 2. Un estimateur 0* est dit minimax si pour tout autre esti- 
mateur 0* on a 


sup E(6* — 1)? < sup E{0* — r}. 
‘er 1er 
En d’autres termes, pour un estimateur minimax on a 
inf. sup E(0* — 1}? = sup E{0* — 1}. (5) 
0° er ter 
Etablissons quelques relations utiles entre estimateurs bayésiens et 
minimax. 


THÉORÈME 1. Désignons par 6@ l'estimateur bayésien associé à une dis- 
tribution a priori Q de densité q. S'il existe un estimateur 6 et une distribu- 
tion Q tels que pour tous les t 


E(6* — 1)? <(E,(68 — u)*q(u)\(du), (6) 
alors l'estimateur 6Ÿ est minimax. 
DÉMONSTRATION. Soit 8* un autre estimateur. Alors 
sup E48* — 1)? >(E48* — r)q(A(dr) > 
U 
> [E (68 — r)aX(dr) > E40* -— 1)°. <« 


A noter que dans la relation (6) l’égalité est nécessairement réalisée pour 
presque tous les { appartenant au support No = {#: q(t) > 0} de la distri- 
bution Q, puisque, le cas échéant, on aurait 


(E0 — 1) 'q(oAdr) < [E4(08 — 1)q( (ar), 


ce qui contredit la définition d’un estimateur bayésien. 
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Cette remarque nous permet de formuler le critère minimax suivant d’un 
estimateur, équivalent au théorème 1. 


THÉORÈME 2. Un estimateur 0* est minimax si 
1) él est bayésien pour une distribution Q, 

2) E48* — 1Ÿ = © = const pour t € No, 

3) E{(6* — 1} < c pour les autres t. 


Si 6* = 08% = 60* vérifie ce critère, il est évident que 
sup Ed6* — 1} = [EG — 1)atxçar). (D) 
Donc, un estimateur minimax est un estimateur bayésien qui « lisse » 
les erreurs E{8* — t)* pour divers t. Cela signifie que la distribution a priori 
Q associée à cet estimateur accorde la même importance à toutes les valeurs 
possibles de 8 et ne privilégie pas certaines valeurs (les plus probables) de 
8 comme le font les estimateurs bayésiens 88 associés à d’autres distribu- 
tions a priori Q # Q. Vu que dans le dernier cas on s’est servi d’une infor- 


mation supplémentaire sur 6, il est naturel que pour Q # Q les estimateurs 
04 soient tels que 


ÎEA8$ — 1) Q(ar) <[E{6ÿ - 1)Q(n). 


Pour cette raison, la distribution Q associée à l’estimateur minimax 0* est 
souvent dite {a plus défavorable. 

Etant donné que la distribution Q n'existe pas toujours (cest générale- 
ment le cas lorsque 6 n’est pas borné), on peut se servir du critère modifié 
suivant pour déterminer un estimateur minimax. 


THÉORÈME 3. S'il existe un estimateur 8? et une suite de distributions 
Q® de densités q®? tels que pour tous les 1 


E{0; — 1) < limsup[E4{£@w — 1)4 Ode), 
alors 60* est un estimateur minimax. 
DÉMONSTRATION. Elle coule de source. Pour tout estimateur 0°, on a 
sup E48* — 17 > [E46* — ga ®DXG@) > [E{6@ — r)q(HX(dt). 
D'où 


sup E48* — 1)? > lim.sup [E{6@ — 19 (nA(dr) > E{6* — 1). <« 
t ° &—-o 
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EXEMPLE 1. Soit X € &.. 1, et soit à déterminer un estimateur bayésien 
a@w du paramètre « qui suit une distribution normale a priori Q® = 
= 0, ». Dans ce cas on doit poser A(df) = di, 


ga) = _s 


La distribution a posteriori QW° admettra une densité g*(r1X) propor- 
tionnelle (comme fonction de #}) à g*(r}f:(X) ou, ce qui revient au même, 
proportionnelle à 


ê 
e 2%. 


L'égalité 


2 = 2 2 
Gt) += - (+) D + — #9 — 
+n 2(+ nr) 


1 
k k 
entraîne 


(&) — b - 
QY —_ k &k . 
ET Î+nk 


Comme l’estimateur bayésien a@w du paramètre æ est égal à l'espérance 
mathématique de la distribution a posteriori , on en déduit que 


ÿ 
x 


k D PER 
er de la distribution a posteriori ne dépend 
pas de X. Donc, en vertu de (4), l'erreur quadratique moyenne de l’estima- 
k 


teur bayésien est égale à Ta 


. 2 
La variance Oo = 


et tend vers - lorsque £—+ ©. Donc, 


pour a* = X;,Oona 


Ex — 1} = = lim [Edogu — 1} g"(t)dt, 
K—o 


L 
ñ 
et par suite, cet estimateur est minimax en vertu du théorème 3. La distribu- 
tion « la plus défavorable » aurait été la distribution uniforme sur la droite 
tout entière (la distribution « limite » de Do, #) si elle eût existé *). 


9 Il est intéressant de signaler que l'estimateur a*° = X ne jouit plus de cette propriété 
si X est un échantillon issu d’une loi normale multidimensionnelle de dimension > 2 (x, € R*, 
œ € R“, k > 3). Pour plus de détails voir [42]. 


9—4195 
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Dans l'exemple suivant, l’ensemble 6 est compact et la distribution « la 
plus défavorable » existe. 

EXEMPLE 2. Soit X € B,, c’est-à-dire que x,, j = 1, ..., 7, prennent 
les valeurs 1 et O avec les probabilités respectives p et 1—p, p € 6 = [0, 1]. 
On sait que dans ce cas, pour l’estimateur p* = xona 


E,& — p} = p(1 — p}/n, 


de sorte que le critère du théorème 2 n’est pas rempli. Considérons 
l’estimateur 


X + 
p* = SE (8) 
1 = 
er 
Son erreur quadratique moyenne 
E,(p* — p) = (++) EfR-v+ | - 4) - 
d Vn d 2Vn  Vn 
_ n (ec - p) , A- 2») . 1 
(1 + Vn} n 4n 4(1 + Vn} 


ne dépend pas de p. Si l’on s’assure maintenant que l’estimateur (8) est bayé- 
sien, on démontre ipso facto qu’il est minimax. Considérons la distribution 
a priori Q = BN+1. n+1, Où B\,. x, est une distribution bêta de densité (cf. 
n°8 du $ 2) 


Fu + ») pi 


NI leg = pri 
TA) 0. 


Puisque 
{C0 = 7 - DEP, 


“ TON + 2) LAN 
q() TN +10 t"(1 y”, 


la distribution a posteriori admettra la densité g(t1.X) qui, en tant que fonc- 
tion de f, sera proportionnelle à /(X)g(f) ou, ce qui revient au même, à 
+ — pp + 2% Ceci exprime que la distribution a posteriori est con- 
fondue avec Bw;xm+1, N+na-1+1. La moyenne de la distribution B,,, ;, 
étant égale à X/(41 + X) (cf. n°8 du $ 2), l’estimateur bayésien pà associé 
à Q sera 


8 = N+xn+1l __X+(N+1)/n 
POTSIN En +2 I+AN+1)n 
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Pour N + 1 = Vn/2, cet estimateur s’identifie à l’estimateur p* défini dans 
(8) et sera minimax en vertu du théorème 2. La distribution Q sera la plus 
défavorable. Lorsque n croît, elle se concentre autour de la « plus mau- 
vaise » des valeurs du paramètre p, la valeur 1/2 pour laquelle la variance 
de l’estimateur x, qui est égale à p(1 — p}/n = 1/(4n), sera maximale, Lesti- 
mateur x n’est pas minimax, puisque 


pA_ — p) I 1 
SUP — "= D" . 
ri n ân 4(1 + Vn) 


Dans le même temps il est clair que pour toutes les valeurs de p, extérieures 
à un voisinage étroit de p = 1/2, l’estimateur x sera meilleur que p$ : ceci 
aura lieu pour tous les p tels que 


| 


p(i DR PT UETT ER 


Dans le cas général, il n’est pas toujours possible d’expliciter (par des 
fonctions de X les estimateurs bayésiens et minimax. L'approche asympto- 
tique s’impose alors tout naturellement. 

Avant d'introduire les définitions respectives, rappelons que les estima- 
teurs bayésien et minimax CES et 0* ont été définis par les inégalités 


E(6ÿ — 6) — E(8* — 0) < 0, 


(9) 

sup E{6* — 1}? — sup E{0* — 1} < 0 

«er 1er 
pour tout estimateur 0*. Il aurait été contraire à la raison de définir les esti- 
mateurs asymptotiquement bayésien et asymptotiquement minimax en 
ajoutant simplement aux premiers membres le signe du passage à la limite 
lim, puisque généralement pour les estimateurs asymptotiquement nor- 
no 


maux, Es(0* — 0)?  a°(8)/n et les premiers membres de (9) tendront vers 
0. Il est donc naturel d'envisager, disons, le rapport des termes de (9). Vu 
que dans la suite nous aurons essentiellement affaire à des estimateurs pour 
lesquels E(0* — 8)° sera de l’ordre de 1/n, il est équivalent de se servir de 
la définition suivante. 

DÉFINITION 3. On dit qu’un estimateur 07 est asymptotiquement bayé- 
sien ou asymptotiquement minimax Si pour tout autre estimateur 0*, on a 
respectivement 

lim.sup [E;(8* — 9)? — E,(8* — 8)°] < 0, 


no 


lim.sup [sup E:n(8? — r)? — sup E,n(8* — t}] < 0. 
er «er 


no { 


à 
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Nous verrons qu’il est toujours possible de trouver des estimateurs 
asymptotiquement bayésiens et asymptotiquement minimax sous des condi- 
tions assez peu contraignantes. 

Dans le cas multidimensionnel (Cest-à-dire lorsque 8 € R* est un vecteur) 
la propriété 9) de l’espérance mathématique conditionnelle reste en vigueur 


et l’estimateur 
04 = E(IX) 
minimisera 
v(0*) = E(0* — 0)V(8* — 8)7 = EE+(8* — 8)/(8° — 6) = 


= [E48* — 17@* - n'qAdE) 


pour toute matrice semi-définie positive V ou ce qui est équivalent (cf. $ 8) 
minimisera la moyenne (avec le poids gqg(f)) de la dispersion quadratique 
moyenne de 0* — 6 suivant toute direction a € R*. 

DÉFINITION 4. On dit qu’un estimateur 6 est bayésien si pour tout 
autre estimateur 0* et toute matrice semi-définie positive V on a 


v(08) < v(@*) 
Un estimateur 0? est asymptotiquement bayésien si 
lim.sup [nv(69) — nv(88)]< 0. 


DÉFINITION 5. Un estimateur @* est minimax si pour tout autre estima- 
teur 0* et toute matrice semi-définie positive V on a 
sup E(8* — 1)V(6* — r)7 — sup E48* — 1)7(8* — 5)! < 0. 
rer 


rer 
Un estimateur 0? est asymptotiquement minimax Si 
lim.sup [sup Esn(8* — 1)V(6* — 5)7 — sup E:n(8* — 1)V(6* — #)] < 0. 


no er «er 
Signalons encore une fois en conclusion de ce paragraphe que dans le 
cas bayésien on peut au besoin traiter EeS, Pe(4) et fo(x) d’un point de vue 
nouveau, plus exactement comme l’espérance mathématique E{(S18), la pro- 
babilité P(A 18) et la densité /(x18), conditionnelles par rapport à 6. 


$ 12. Statistiques exhaustives 


Dans le paragraphe précédent nous avons examiné la construction de 
deux types d’estimateurs optimaux : les estimateurs bayésiens et les estima- 
teurs minimax. On se propose d'introduire ici la notion de statistique 
exhaustive qui nous permettra de construire des estimateurs efficaces 
(cf. $ 8).- 
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Les statistiques exhaustives jouent un rôle important en statistique 
mathématique en général et en théorie de l’estimation en particulier. 

Convenons de désigner par S = S(X) les statistiques qui sont des fonc- 
tions mesurables (scalaires ou vectorielles) de X. 

Soient ŸÀ € Ps, Ps € # = {P,}. Considérons la distribution PA(X € 
€ BIS), B € 8°, conditionnelle par rapport à la variable aléatoire S, 
engendrée par une distribution Pe dans 27. 

DÉFINITION 1. On dit qu’une statistique S = S(X) est exhaustive pour 
le paramètre 8 s’il existe une distribution conditionnelle P,(X € BIS) indé- 
pendante de 6. 

On sait que P,(X € BIS) est une espérance mathématique conditionnelle 
pour tout B. Il existe donc une fonction P(B1s), borélienne par rapport à 
s pour tout B, telle que 

P,(X € BIS) = P(BIS). 


On peut admettre (cf. $ 10) que P(BIS), traitée comme une fonction de B, 
est une distribution conditionnelle sachant que S = s. Cette distribution 
peut être interprétée comme une distribution de X sur la surface S(x) = s. 

Mais si S est une statistique exhaustive, C’est que cette distribution est 
indépendante de 8! Cela signifie que la connaissance de la position du point 
échantillon X sur la surface S(x) = s ne nous fournit aucune information 
supplémentaire sur le paramètre 8. (En effet, il est clair que personne ne 
s'aventurera à déterminer le paramètre inconnu 8 dans l’exemple 1 de l’Intro- 
duction en jetant une pièce de monnaie, pour la raison simple que la distri- 
bution du nombre de « piles » ou de « faces » ne dépend en aucune façon 
de 06.) 

Cette circonstance signifie à son tour que toute l’information sur le 
paramètre 8 est contenue dans la valeur de 1a statistique S. D’où son nom 
de statistique exhaustive : grosso modo, la connaissance de S(X) suffit pour 
construire un estimateur du paramètre ÿ ; les autres données contenues dans 
l'échantillon X sont superflues. à 

EXEMPLE 1. Soit X € I. Montrons que la statistique S = 7x = >, x; 

ER | 
est exhaustive pour le paramètre À de la loi de Poisson. Il nous faut montrer 


que la distribution de la position du point X sur la surface D; x; = s 
i=1 
(S est un entier) ne dépend pas de À. Comme P{X = x, >x = s) = P(X = 
ñn 
= x) pour >, x; = 5, il vient 
im] 


P(X = Xi, Xn = Xi)  N  — 
rue a 2 9 2 7 RSS . 2er 


O sinon. 
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Puisque les x; sont indépendants et 2; x; € Il, le second membre de (1) 
im! 
est égal à : 


s\ — I xi 
Ca a) II e”À à - s! 


im1 n'II x! 


Donc, la distribution conditionnelle de X sachant que S = s est confon- 
due avec la distribution polynomiale B; (cf. $ 2) à n issues équiprobables 
(c'est-à-dire de probabilité p = (1/7, . .., 1/n)) et à s épreuves indépendan- 
tes. Il est évident que cette distribution ne dépend pas de \, si bien que S= 
= nX est une statistique exhaustive pour À. 

La notion de statistique exhaustive a été introduite par Fisher en 1922. 
Le théorème suivant de Neyman-Fisher, appelé théorème de factorisation, 
établit un critère -imple d’existence d’une statistique exhaustive. 

Supposons qu'est remplie la condition (4,) d’existence de la densité 


fe) = .. °C»). 


THÉORÈME 1. La condition nécessaire et suffisante pour qu'une statisti- 
que S soit exhaustive pour 8 est que la fonction de vraisemblance fe(x)= 


n 
= I] Jo(x) se représente sous la forme 
im] 


fe(x) = Y{S(x), 8)h(x) [u"]-presque partout, (2) 


où chacune des fonctions Ÿ# > 0 et h > 0 dépend uniquement de ses argu- 
ments, Y{s, 0) est mesurable par rapport à 5, et h(x) mesurable par rapport 
à x. 

Il est clair que la représentation (2) n’est pas unique. Ses composantes 
sont définies à une fonction strictement positive de S(x) près. 

Dans l’exemple ci-dessus relatif à la distribution de Poisson on a 


f@) = [I e* à = TI TT 


im] im] 


nx = >, A 
im] 
de sorte que pour S = rx on peut poser : 
SA =e "\SA, h(x) = > —. 
HS, À) @=2 
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De là il s'ensuivra en vertu du théorème 1 que S = 7x est une statistique 
exhaustive. 

Nous produirons la démonstration du théorème 1 pour deux cas 
seulement : le cas discret et le cas « régulier ». Dans le cas général, cette 
démonstration est accessible dans l'Annexe IV. 

Dans le cas discret, y est une mesure cardinale sur l’ensemble dénombra- 
ble 2”des valeurs possibles de x. et par suite fe(x) = Po(x1 = X), x € 7° 
Supposons tout d’abord que (2) est réalisée. Pour tout point x € 27 fixe, 
on a alors 


Po(X = x, SX) = S(x)) 
Pa(S(X) = S(x)) 


Comme {X = x, S(X) = S(x)} = {X = x}, le second membre de (3) vaut 


P4CX = xIS(X) = S(x)) = (3) 


en 7e) 
Pe(S(X) = S(x)) 2 fo) 
7: SO) = S(x) 
= SX), 9)h(x) . h(x) | 
2:  W{S(), 8)k() 2:  h) 
y : SO) = 5x) 7 : SO) = 5) 


Donc, Pa(X = xiS(X) = S(x)) ne dépend pas de 8. 
Réciproquement, si le premier membre de (3) est indépendant de 8, en 
le désignant par A(x), on déduit de (3) 


PoCX = x) = fox) = Pa(X = x ; SX) = S(x)) = A(x)Po(S(X) = S(x)), 


où Pa(S(X) = S(x)) = ÿ{S(x), 8) ne dépend que de S(x) et de 8. < 
La démonstration du théorème 1 est légèrement plus compliquée dans 
le cas « régulier » où y est la mesure de Lebesgue dans R et la statistique 
S(X), une fonction régulière de X telle qu’existe un changement de variables 
Ji = S(x), Y2 = J2(xX), +, Yn = Jn(x) tel que x; = xiÜn, . .., Pr) et J = 
dx; 
dy; 
sous le signe d'intégration, on sait que dans ce cas la densité de la variable 
aléatoire Y = (S(X), »2(%), . . ., Y:() sera égale à 


go() = fe(x)lJ1, y = On, ..., Jn). 
La densité de la variable aléatoire y:(49 = S(X) vaudra 


#< 0. Du cours d’analyse classique sur le changement de variable 


#01) = | goW)d# ... dy = ( fax) Jidyr .…… dyn, 
R°T R1TT 
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quant à la densité conditionnelle Ÿ sachant que S(X) = s, elle sera par con- 
séquent définie par l'expression 


Après ces remarques préliminaires la démonstration du théorème 1 pour 
le cas « régulier » s'effectue comme pour le cas discret. En effet, si (2) est 
réalisée, on a 

Y{s, 0)h(x)1J1 


a de | Vs 0)h(x)1Jld» ... dy 
r"= 1 


Dans cette relation on peut simplifier par ÿ(s, 8). Ceci exprime que la distri- 
bution conditionnelle de Ÿ, donc de X, par rapport à la condition S(X) = 
= s ne dépend pas de 6. 
Réciproquement, si w(yls) ne dépend pas de 6, il vient 
ls)g$(s 
fu = 20198) 
1J1 
Ceci signifie que (2) est réalisée pour ÿ{s, 0) = g$"(s), A(x) = e(ls)/1J1. € 
EXEMPLE 2. Soit X € d, #. Le paramètre 8 = (œ, 0?) est à deux 
dimensions. On a 


pour s = S(x). 


= — (xi — a)? D 
Je(X) = II Te : 97" Q 07e | - DE a) }- 
im] 
ji — 2anx 
= o”" ap{- >x _ + na Jen" 


En posant S = (S1, S2), S1 = nX, S: = >; x? on obtient la représentation 


i=] 
(2), où 


. 2 
Y{S, 0) = a” ap| - LU 


= }: hX = Cr) 7"”2. 


On aurait pu certes rapporter le facteur (2x) "2 à la fonction ÿ en posant 
h(X) = 1. 

On trouve donc que la statistique (S1, S2) est une statistique vectorielle 
exhaustive pour (œ, o?). De toute l’information contenue dans l'échantillon, 
il nous suffit de connaître x et D x? 

Nous proposons au lecteur de trouver les statistiques exhaustives pour 
toutes les familles de distrit tions citées dans le & 2. 

Arrêtons-nous en détail sur l’une de ces familles. 
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EXEMPLE 3. Soit À € Un, +. La condition (4,) est remplie pour la 
mesure de Lebesgue et 


07" si x: € [0,0], i=1,...,n, 
0 sinon. 


Je(X) = { 


Soient Xu) = MIN Xi, X(n = Max Xi. Alors, comme dans l’exemple 6.5, 
la fonction fe(X) peut se mettre sous la forme fe(X) = Ÿ(xm, 0)A(X), où 


: 1 si xu) > O, 
ARE { O sinon, 
97" si s<6, 
v6s 0) = { 0 sinon. 


Ce qui exprime que S(X) = xm) est une statistique exhaustive pour 6. 
Le lecteur peut s’assurer de façon analogue que si X € Uo. 140, la statis- 
tique S(4) = (xx), Xem) est une statistique exhaustive pour le paramètre 6. 
On obtient la même statistique exhaustive pour le paramètre 0 = (a, b) si 
X E Ua. b- 
Voici deux corollaires du théorème 1. 


COROLLAIRE 1. Si S est une statistique exhaustive pour 0, l'estimateur 
du maximum de vraisemblance ne dépend que de S. 


Plus exactement, l’estimateur du maximum de vraisemblance 4* ne 
dépend pas de X si S(X) est fixe. 

Ce corollaire est évident, puisque l’estimation par le maximum de vrai- 
semblance est la valeur de 8 qui réalise le maximum de /e(X) = 
= Y{S(X), 0)h(À) ou, ce qui est équivalent, le maximum de ÿ{S(X), 8). 


COROLLAIRE 2. Si S est une statistique exhaustive et £ une fonction 
telle que l'application u = (v) est bijective et mesurable avec sa récipro- 
que, alors S1 = (S) est aussi une statistique exhaustive. 


Ce corollaire est évident, lui aussi, puisque la fonction ÿ{S, 8) de (2) peut 
être mise sous la forme ÿ{@ ” (Si), 8) = Y1(S1, 0). 
Nous avons encore le critère suivant d’exhaustivité d’une statistique S. 


THÉORÈME 2. Une condition nécessaire et suffisante pour qu'une statis- 
tique S soit exhaustive est que pour toute distribution a priori Q du paramè- 
tre 6 la distribution a posteriori Qx ne dépende de X que par l'intermédiaire 
de S(x) (c'est-à-dire reste invariable sur la surface S(X) = s). 
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DÉMONSTRATION. Soient S une statistique exhaustive, g(f) la densité de 
Q par rapport à une mesure À. La densité a posteriori q(t\X) par rapport 
à cette mesure est donnée par la formule de Bayes 


(00 2 (SCA), 9Ng(1) 


1X) = = S 
OA Toma — IVOC0, HauNAu) 


Prouvons maintenant la condition suffisante du théorème. Choisissons 
la distribution a priori de telle sorte que g(f) > 0 partout sur 6 et que l’on 
ait pour tous les # 

00 = LC ra = aa). 
Si g(t1X) = g(t, S(X)), on obtient la représentation (2) en posant ÿ{s, f)= 
= gt, s)/q(r), hR(X) = JA). 


COROLLAIRE 3. Si S est une statistique exhaustive, tous les estimateurs 
bayésiens et tous les estimateurs minimax définis à l'aide du théorème 11.2 
ne dépendent que de S. 


Dans la suite nous aurons à maintes reprises la confirmation que Îa sta- 
tistique exhaustive S contient une information exhaustive sur 6. 


8 13* Statistiques exhaustives minimales 


Penchons-nous maintenant sur le choix des statistiques exhaustives. Il] 
est clair qu’il en existe beaucoup. Par exemple, la statistique S(4) = X est 
visiblement toujours exhaustive. On l’appelle statistique exhaustive triviale. 
Mais l’on s’intéressera (et l’on verra pourquoi dans la suite) aux statistiques 
plus « économiques ». Il s'avère qu’il n’est pas toujours possible de cons- 
truire des statistiques exhaustives qui soient sensiblement plus « économi- 
ques » que la statistique exhaustive triviale. On reviendra sur cette question 
une fois qu’on aura défini rigoureusement les notions de statistiques 
exhaustives « économiques ». A cet effet, munissons l’ensemble des statisti- 
ques exhaustives (pour un paramètre 8) d’une relation d’ordre partiel. 

DÉFINITION 1. On dira qu’une statistique S. est subordonnée à une sta- 
tistique S2 si S1 est une fonction mesurable de S2 : S; = w(S2). 

Cette relation exprime précisément que S. est plus « économique » que 
S2. 

DÉFINITION 2. On dit que des statistiques S1 et S2 sont équivalentes si 
S1 est subordonnée à S2, et S2 à Si. 

Il est évident que S. est équivalente à S2 si et seulement si S1 = w(S2) 

et ÿ est une application bijective mesurable avec sa réciproque. 
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DÉFINITION 3. On dit qu’une statistique exhaustive S est minimale si 
elle est subordonnée à toute autre statistique exhaustive S. 

Les statistiques exhaustives minimales sont les plus économiques. Si l’on 
a réussi à construire une statistique exhaustive minimale $, il est impossible 
de réduire les données tout en conservant l’exhaustivité. Les autres données 
contenues dans l'échantillon peuvent être considérées comme engendrées 
par un mécanisme aléatoire indépendant de 8. Elles ne recèlent aucune 
information sur 6. 

Les notions introduites ainsi que la notion initiale de statistique exhaus- 
tive peuvent être exposées sous une forme légèrement généralisée dans le 
langage des tribus, langage qui, dans bien des cas, est plus commode et plus 
suggestif. Tout au début — dans la définition 1 du paragraphe précédent 
— on peut remplacer la distribution conditionnelle P4(X € BIS) par la dis- 
tribution conditionnelle P4(X € BI) par rapport à une sous-tribu A C PB. 
et appeler À tribu exhaustive s’il existe une distribution P,(X € BI) indé- 
pendante de 6. 

Le théorème de factorisation reste en vigueur si la fonction ÿ{S(X), 8) 
est remplacée par une fonction Ÿ{X, 8) A-mesurable par rapport à X. La 
démonstration de ce théorème, qui est insérée dans l’Annexe IV, reste prati- 
quement la même. 

On peut maintenant définir une statistique exhaustive S comme une sta- 
tistique pour laquelle la tribu o{S) qu’elle engendre est exhaustive. 

La relation « être subordonnée à » entre les statistiques exhaustives (cf. 
définition 1), traduite dans le langage des tribus, n’implique l’introduction 
d’aucune notion supplémentaire et est confondue avec l’immersion des tri- 
bus : S. est subordonnée à S2 si o(S1) € o(S2). Donc, Si est plus économique 
que $ si la tribu o{S1) est plus pauvre (plus grossière) que o(S2). L’équiva- 
lence de S1 et de S2 exprime que o{S1) = o(S2). 

La tribu exhaustive minimale Yo se définit comme une tribu qui 
s’'immerge dans toute tribu exhaustive. 

Il existe toujours une tribu exhaustive minimale. Pour s’en assurer, on 
remarquera préalablement qu’en vertu du théorème 2 de l'Annexe IV il existe 
une distribution (discrète) Q sur ©@ telle que toutes les P, sont absolument 
continues par rapport à la distribution PQ = (PAQ(ar). 

Ceci exprime que soit /e(X) = 18.900107) > 0 pour tous les X, soit 
l'égalité fa(X) = 0 entraîne que fe(X) = 0 pour tout 8. On dit alors que 
PQ domine la famille {Pe}, si bien qu’on aurait pu prendre PQ pour mesure 
u. La densité de la distribution P, par rapport à cette mesure est égale à 


dPe _ Je(x) 


2. (x) @ æ r(x, 0). 
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Il est clair (comparer avec le théorème 12.2) que si S est une statistique 
exhaustive, r(x, 0) ne dépend de x que par l’intermédiaire de S(x). 


THÉORÈME 1. La tribu Yo = o(r(X, 0) ; 0 € 6) engendrée par les varia- 
bles aléatoires r(X, 8) = fe(X)/fQa{X) pour diverses valeurs de 0 € 6 , est 
une tribu exhaustive minimale. 


DÉMONSTRATION. Elle est élémentaire. L’exhaustivité de Yo résulte du 
théorème de factorisation et du fait que 


fo(A) = r(X, 8Ye(*), (1) 


où fa(*) ne dépend pas de 8 et r(#, 8) est mesurable par rapport à Yo. 
Supposons maintenant que À est une tribu exhaustive quelconque. Alors 

fo(X) = Y{X, 0)h(X), où la fonction Y{X, 8) est A-mesurable. Considérons 

la tribu A, = o(ÿ{(X, 0), 0 € 6) C A. De la définition de r{(X, 0) il résulte que 


r(X, 0) = YX, 0) 


[4CX, NQ(Qr) 
donc YW C W C A. 


À ce théorème et au théorème 12.2 est liée une autre proposition utile. 
Considérons l’approche bayésienne du problème où 8 est une variable aléa- 
toire de distribution a priori Q. Supposons que g(t) > 0 est la densité de 
cette distribution par rapport à une mesure convenable À sur 6. La densité 
a posteriori sera alors égale à 


US — r(x, 1)q{(t), 


donc la tribu exhaustive minimale % peut être considérée comme engendrée 
par la distribution a posteriori, soit : 


Yo = a(qg(tiN) ;1e 0). 


La détermination des distributions Q et Pa figurant dans le théorème 
1] ne pose aucun problème. Si, par exemple, le support MP, de la distribu- 
tion P, ne dépend pas de 8, ce qui est le cas de la plupart des distributions 
mentionnées dans le $ 2, on peut prendre Po = Pa, pour tout & € ©. 

Nous disposons ainsi d’un théorème d'existence et d’une méthode de 
construction des tribus exhaustives minimales *). 


qUlxX) = 


*) On peut établir l'existence d’une tribu exhaustive minimale % d'une autre manière en 
prouvant qu'elle est l'intersection de toutes les tribus exhaustives complétées. 
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Cependant dans la plupart des cas il nous sera plus commode de mani- 
puler les statistiques. Le principal objectif de ce paragraphe est la recherche 
des statistiques exhaustives minimales. 

Mais tout d’abord comment peut-on s’assurer qu’une statistique exhaus- 
tive So est minimale ? 

Un moyen consiste à utiliser le théorème 1. Si o(S) est confondue avec 
la tribu engendrée par fe(X)/fo(X), alors S est une statistique exhaustive 
minimale. 

EXEMPLE 1. Nous avons vu que la statistique S = 7x est exhaustive 
pour le paramètre À de la distribution de Poisson IE. C’est une statistique 
exhaustive minimale, puisque o{S) est confondue de toute évidence avec la 
tribu engendrée par A(X)/A(X) = "4 -Q/A)S (nous avons envisagé ici 
une distribution Q concentrée au point À). 

EXEMPLE 2. Soit X € Uo. o. La statistique S = xum) = max x; est alors 
une statistique exhaustive minimale. En effet, prenons pour Q une distribu- 
tion quelconque sur {[0, æ{, de densité g(f) > 0 pour tout f > 0. Alors 


-, 025, 
< 


Jo(A) = (0 S. 


0 
Ja = [Mad = | 1 "at > 0 
S 


0 


pour tout X. De plus, S = sup{8 : fe(X)/fQ{X) = 0}. Ceci exprime que 
S est mesurable par rapport à la plus petite tribu Yo, o(S) C Ÿ et par suite, 
S est une statistique exhaustive minimale. 


Il existe un autre procédé de détermination des statistiques exhaustives minimales qui est 
également lié à la fonction de vraisemblance. En effet, toute statistique, et en particulier toute 
statistique exhaustive engendre une partition de l'espace des échantillons en classes d'’équiva- 
lence, c’est-à-dire en sous-ensembles de points x en lesquels S(x) prend la même valeur. 

Si S: est subordonnée à S2, ie S: = w(S2), il est évident que la partition pour S, sera moins 
fine puisque les classes d'équivalence pour S2 sont contenues dans les classes d'équivalence 
pour S:. Donc, à une statistique exhaustive minimale est associée la plus « grosse » de toutes 
les partitions engendrées par les statistiques exhaustives. 

On peut envisager simplement des partitions de l'espace en classes d'équivalence sans les 
relier directement aux statistiques. Désignons par D(x) la classe d'équivalence contenant le 
point x. Chaque classe est définie de façon unique par l’un quelconque de ses points. On dira 
qu'une partition en classes D est exhaustive si 


Jx) = vx, 0)h(x), (2) 


où (x, 0) = px, 8) est constante pour x € D{xo) (ie. (x, 0) = const à l’intérieur de la classe 
d'équivalence). Si les classes D(x) sont définies par les relations S(x) = 5, il découle alors 
immédiatement du théorème 11.1 que la statistique S(x) est exhaustive si et seulement s’il en 
est de même de la partiuon en classes D. 
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Considérons maintenant la partition suivante : prenons un point x et décrétons que x 
appartient à la classe D(x) si le rapport 


Je(x) 
= h(x, 3 
7 o 


est indépendant de 8. Il est évident que D(x1) = D(x2) = D(x) si x; € D(x) et x2 € D(x), 
de sorte que la règle (3) engendre une partition de l’espace tout entier en classes" disjointes. 
Cette partition correspond à celle engendrée par une statistique exhaustive minimale S. 
En effet, soit S une statistique exhaustive minimale. Prenons un point x quelconque. Sur 
la surface S(x) = S(x), le rapport fe(x)/fe(xo) est égal à A(x)/h(xo) et ne dépend donc pas de 
0. Par conséquent, la partition en classes D est au moins aussi grosse que la partition pour S. 
D'autre part, cette partition est exhaustive. En effet, à toute surface D on peut associer l’un 
quelconque de ses points xp qui la définira de façon unique. Considérons la fonction xo{x) 
définie par la relation xo(x) = xp si x € D. Alors, en vertu de (3), pour x € D,on a 


Ju(x) = fo(xp)h(x, xp) = fo(xo(x))A(x, xo(x)), (4) 


ce qui exprime que (2) est réalisée. 

Les considérations précédentes n'étaient pas rigoureuses du tout, car elles n'étaient pas liées 
à la mesurabilité des fonctions figurant dans (4). 

Ce qui précède peut être résumé comme suit. Soit donnée une statistique S(X) telle que 
S{x) = S(x) si et seulement si le rapport (3) est indépendant de 8. Dans ce cas, S est une statis- 
tique exhaustive minimale. 

Contrairement aux approches liées au théorème 1, qui considéraient les rapports 
Jo(x)/fa(x) ou fo(x)/ fe, (x) pour des 8 et 8; différents (ces rapports sont souvent appelés rap- 
ports de vraisemblance), la règle formulée ci-dessus utilise le rapport fe(x)/fe(xo) pour les 
mêmes valeurs du paramètre 8. Ainsi, dans l'exemple 1, le rapport 


AG) fo) = 720 xo!/xt = À" IX !/xi! 


à ; à, 4 1 < : 
sera indépendant de À si et seulement si x = % = — >, Xo, OÙ Xo sont les 


im] 
coordonnées du vecteur x. Ceci suffit pour conclure que S(x) = X est une statistique exhaus- 
tive minimale. 
Appliquons maintenant la règle proposée à l'étude d’un exemple où il n'existe pas de statis- 
tiques exhaustives « économiques ». Remarquons tout d’abord que l'échantillon ordonné Sy = 
= (Xu), Xe), - - + X(m)) ASSOCIÉ à l'échantillon X est visiblement toujours une statistique exhaus- 


ñ Li - 
tive, puisque /e(X) = II Jux) = II Jefxm). Cette statistique est un « peu plus 
LR | &si! 
économique » que l'échantillon X. De là il s'ensuit en particulier que toute statistique exhaus- 
üve minimale est invariante par une permutation des coordonnées x; de l'échantillon X. 

Si la densité f(x) est symétrique, ie. fe{—-x) = fe(x) pour tous les 8, il est évident qu'il 
existera alors une statistique exhaustive un « peu plus économique », notée S, qui est consti- 
tuée de l’ensemble (x?, . . . x?) rangé dans l’ordre de grandeur croissante. 

EXEMPLE 3. Si X € Ko. ., ie x; admettent une distribution de Cauchy de paramètre 9 = 
= o et de densité 


o 
| Ko, a(X) = SE PRE 
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la statistique S est une statistique exhaustive minimale. En effet, dans ce cas 


SX) = (2) II GC + &)°! 


i-1 
de sorte que 


9 TT +57 
f%o) x + 


ds! 


(5) 


est le rapport de deux polynômes de a°. Ce rapport est indépendant de o si et seulement si 
les coefficients des puissances respectives de o? du numérateur et du dénominateur sont con- 
fondus. Ce qui a lieu si et seulement si les ensembles des « zéros » { — xd] et { — x?) sont con- 
fondus. En d'autres termes, une condition nécessaire et suffisante pour que le rapport (5) soit 
indépendant de a est que le point x? = (x?, ..., x2) admette les mêmes coordonnées que le 
point xé à une permutation près. Ceci exprime que S, est une statistique exhaustive minimale. 

On démontre de façon analogue que Sy est une statistique exhaustive minimale pour le 
paramètre a et, par suite, pour le paramètre 8 = (œ, o) de la distribution K., …. 

On obtient un autre exemple dans lequel S,: est une statistique exhaustive minimale en con- 
sidérant la famille 


Pe: 01. 02 = aPe, + (1 -— a)Pe,, a € [0, 1], 


où {P,} est une famille exponentielle (cf. $ 15 ; pour P, on peut prendre une distribution nor- 
male ou une distribution de Poisson) et l’un au moins des paramètres æ, 8, ou 6 est inconnu. 


Prouvons maintenant un théorème qui nous fournit une méthode élé- 
mentaire de construction des statistiques exhaustives minimales. 
Pour simplifier l'exposé, on traitera le cas d’un paramètre 9 scalaire. 


THÉORÈME 2. Supposons que la fonction de vraisemblance f(x) consi- 
dérée comme une fonction de 8 est continue à droite (ou à gauche) pour tout 
x. Si l’estimateur du maximum de vraisemblance Ô* est unique et est une 
statistique exhaustive, alors il est une statistique exhaustive minimale. 


DÉMONSTRATION. Soit S une statistique exhaustive quelconque. Le 
théorème sera démontré quand on aura établi que 0* est mesurable par rap- 
port à o{S) et par suite 0* est subordonné à S. 

Le théorème de factorisation affirme que 


fe(x) = Y{S(x), 8)h(x) ["]-presque partout, (6) 


où A(x) est une fonction mesurable par rapport à x, ÿ{(s, f) une fonction 
continue (à droite ou à gauche) par rapport à f et mesurable par rapport 
à s. Comme P, ne varie pas si la densité fs(x) change sur un ensemble u”- 
négligeable, on peut admettre que (6) est vérifiée pour tous les x. 
D’après (6), le point de maximum absolu de fs(x) est aussi point de 
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maximum absolu de ÿ{S(x), 0). Puisque 8* est unique, il vient donc 
(0® < 1} = [sup (SCA, 0) > sup (SCA), 0)}. 


Comme ÿ{(S(X), 8) est continue à droite (ou à gauche) par rapport à 8 
pour toute S(X), il existe un ensemble dénombrable partout dense 64 = 
= {0;};.1 C © (le même pour toutes les S(X)) tel que 


Sup SCA), 8) = sup (SX), 0;). (7) 


0£6a 


Cette relation sera valable aussi pour le domaine 8 > 1. Comme Y{S(X), 
6;) sont mesurables par rapport à o{S), les valeurs sup ÿ{S, 8) et sup yÿ{S, 8) 
0<1 0z1!t 


seront, en vertu de (7), des variables aléatoires qui seront mesurables aussi 
par rapport à o{S). Donc, {80* < #1} € o(S) et le théorème est prouvé. 

L’exhaustivité de l’estimateur du maximum de vraisemblance 6* est 
essentielle dans cette proposition, puisque 6* n’est pas tenu de l’être. On 
obtient sans peine un exemple illustrant cette situation en considérant une 
famille quelconque de distributions {P,} avec un paramètre @ scalaire et 
une statistique exhaustive minimale vectorielle S. Dans ce cas, l’estimateur 
du maximum de vraisemblance Ô* sera scalaire aussi, de sorte que la tribu 
o{S) sera plus riche que o(6*) et par suite l'inclusion o{S) C o{6*), qui 
découle de la minimalité de S et de l'exhaustivité de 6%, est impossible. 

EXEMPLE d4. Soit À € Us. 1+0, O6 = R. Comme dans l'exemple 6.4, on 
a 


fi 2 = É si 0 < Xi < Xm < 1 + 6, 

sinon, 
de sorte que fe(X) dépend de X par l'intermédiaire seulement de x«), et de 
X{m- Ceci exprime que S = (x), Xm)) est une statistique exhaustive. Prise 
séparément, aucune des quantités x(1) et Xi) n’est une statistique exhaustive, 
la preuve étant donnée par les relations suivantes : 


Il P(xu € [u, vD = 


P(xa) > 4 Xm) < V) 


(v — u)" pour u 280, v<1 +06, v > u. 


Donc, la densité conjointe de la distribution de (xu), Xm) Sera égale à 


_ (nn — 1) — u)"72 su>60,,v<1+0,v>u, 
gt, ” … b sinon. 
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D'autre part, P(xa) > u) = (1 + 0 — u)" pour 8 < u < 1 + 8, de sorte 
que la densité de x«) est 


g(u) = ni +0 — u)" 7! pour 8 <u< 1 + 6. 


De là on déduit sans peine que la densité conditionnelle g(vlu) de la varia- 
ble x) sachant que xx, = #4 (donc la distribution conditionnelle correspon- 
dante) dépendra de 8. Ceci exprime que xx, (de même que x) n’est pas une 
statistique exhaustive. Comme on peut adopter 0* = xu) en qualité d’esti- 
mateur du maximum de vraisemblance 0* (cf. exemple 6.4), cela démontre 
que Ô* n’est pas une statistique exhaustive pour la famille Us. 146. 

Nous proposons au lecteur de s’assurer à l’aide du théorème 1 que S = 
= (Xu), X(m) est une statistique exhaustive minimale pour Uo, 14e. 

La condition d’exhaustivité de 4* du théorème 2 sera automatiquement 
remplie si l’on admet qu’il existe une statistique exhaustive scalaire S pour 
laquelle la fonction # de l'égalité 0° = #{(S) sera biunivoque (c’est-à-dire 
que Ô* et S seront équivalentes). 


$ 14. Construction des estimateurs efficaces 
à partir des statistiques exhaustives. 
Statistiques complètes 


DÉFINITION 1. Un estimateur 80* est exhaustif s’il est une statistique 
exhaustive. | 

1. Cas scalaire. Or admettra que 8 est un paramètre scalaire. Soit K, la 
classe des estimateurs biaisés 0* de biais b(8), c’est-à-dire que 0*EK, si a(8)= 
= E0* = 0 + b(0). Pour 0*eXk,, on a 


Es(0* — 0)? = Eo(0* — a(0))? + (a(0) — 0)? = Vo0* + b°(6). 


On omettra parfois l’indice 8 des symboles Es et Vo dans ce paragraphe. 
La proposition suivante a été établie indépendamment par Blackwell, 
Rao et Koimogorov. 


THÉORÈME 1. Si S est une statistique exhaustive et 0*EK\;,, la fonction 
0? = Eo:(0* IS) est un estimateur doué des propriétés suivantes : 

1) 0$ € Ko, 

2) 0? dépend de X seulement par l'intermédiaire de S(X), 

3) Eo(0$ — 0)? < Eo(0* — 0)? pour tout 6. 
La dernière relation se transforme en égalité si seulement 0* = 0$ presque 
partout par rapport à Pe. 


En d’autres termes, l’estimateur 0* est uniformément amélioré si on lui 
applique l’opération Ee(-iS) dans la classe K4. 


10—4195 


146 THÉORIE DE L'ESTIMATION DES PARAMÈÊTRES INCONNUS (CH. 2 


DÉMONSTRATION. Etant un estimateur, 0? ne dépend pas de 8 et est une 
fonction mesurable de X. Son indépendance par rapport à 0 découle des 
propriétés des statistiques exhaustives, puisque la distribution de X est indé- 
pendante de 8 pour S fixe (la quantité E:(0* IS) ne dépend généralement pas 
de 0 pour S quelconque). D'autre part, d’après les propriétés de l'espérance 
mathématique conditionnelle, 8* est une fonction mesurable de S, donc de 
X. Par conséquent, 0* est un estimateur vérifiant la propriété 2) du 
théorème. 

L'égalité 

Es0t = EsEs(0* IS) = Ecb*, 


qui prouve que 0% € K?, résulte aussi directement des propriétés de l’espé- 
rance mathématique conditionnelle. Par ailleurs, 


Eo(0* — 0)? = E,(0* — 0 + 02) = 
= E:(0-— 0)° + Eo(0* — 02) + 2E,(0% — 0)(0* — 0%). 


Les propriétés de l’espérance mathématique conditionnelle nous don- 
nent encore 


Eo(0$ — 0)(0* — 0%) = EoEo[(0$ — 0)(0* — 82)1S] = 
= Eo[(0$ — 0)E:(0* — 6$1S)] = 0, 
donc 
Eo(0* — 0) = E,(0% — 0)° + Eo(0* — 02). < 


En fait, on aurait pu établir l’inégalité 3) du théorème 1 directement à 
partir de la propriété suivante : (E(£1S))* < E(£?1S) de l'espérance mathé- 
matique conditionnelle, puisque alors 


(0% — 0)? = [Eo(8* — 08)15)}? < Es[(8* — 8)°1S], 
E(8% — 0)? < Eo(0* — 0). 


La proposition du théorème 1 admet l’interprétation suivante. Si S et T 
sont des statistiques exhaustives, 9* = (T7) et S est subordonnée à 7, alors 
E(0% — 0)° < Eo(0* — 0)’. 

En d’autres termes, plus la statistique exhaustive S est « économique » 
(ou plus la tribu correspondante est pauvre), plus les estimateurs 0$ sont 
meilleurs. Pour construire des estimateurs optimaux nous devons donc 
chercher des statistiques exhaustives minimales (ou les plus petites tribus). 
Ceci étant, les estimateurs de départ 0* peuvent être de « mauvais » estima- 
teurs qui par exemple ne sont même pas convergents. A cet égard, l’exemple 
suivant est instructif. 
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EXEMPLE 1. Soit X € I. L'estimateur À* = x. est visiblement sans 
biais (EA* = Ex: = X, bQ) = 0) et n’est pas convergent, puisqu'il ne 
dépend pas de 7. Une statistique exhaustive minimale pour X est la statisti- 
que S = nx = > x. De l’exemple 12.1 il s'ensuit que la distribution condi- 
tionnelle de x1 par rapport à S est la distribution B?,, : 


1 k | s—k 
P(x1 = kIS = s) = c() ( 2) : 


S 
\ = E(ulS) =>) (: 2) == 


K=] 


Donc 


Dans un exemple ultérieur on montrera que x est un estimateur efficace. 

2. Cas vectoriel. Etablissons maintenant les analogues du théorème 1 
pour le cas où 0 et 0* sont des vecteurs de R“. 

Comme en dimension un, le vecteur b(8) = E+0* — 6 sera appelé biais 
de l’estimateur 0* et la classe des estimateurs de biais b, désignée par 3. 


THÉORÈME ÎlA. Soient S une statistique exhaustive et 0* € K3. L'estima- 
teur 0% = E:(0*1S) jouit alors des propriétés suivantes : 

1) 0$ € Ko, 

2) 0? dépend uniquement de S(X), 

3) la dispersion quadratique moyenne de 0$ est inférieure à celle de 8*, 
ou ce qui est équivalent, pour tout vecteur a € R“, on a 


Es(0$ — 6, a)? < Eo(0* — 6, a)’. (1) 


L'égalité (pour tout a) n'est possible que dans le cas où 0* = 0? presque par- 
tout par rapport à Pa. 


DÉMONSTRATION. Les deux premières propositions sont évidentes. Les 
inégalités (1) résultent du théorème 1, puisque tout se ramène à l'étude 
d’estimateurs scalaires (9*, a) du paramètre (0, a) et Es[(0*, a)1S] = (6#, a). 
Si l'égalité est réalisée dans (1) pour tout a, on aura alors (0#, a) = (0*, a) 
presque partout. Ce qui signifie que 8* = 8* presque partout. 

Dans le cas vectoriel les statistiques exhaustives jouent donc le même 
rôle que dans le cas scalaire : la forme quadratique Soi;aia;, où 0? = loÿl 
est la matrice des moments d’ordre deux pour 0? — 6, sera d'autant plus 
petite que le sera la tribu o{S) engendrée par S. 

3. Statistiques complètes et estimateurs efficaces. Nous allons introduire 
maintenant un critère assez simple, basé sur la notion de complétude d’une 
statistique S$, qui détermine l’impossibilité d'améliorer les estimateurs. Dési- 


10° 
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gnons la dimension de la statistique S par /. Généralement, / > k, où k est 
la dimension du paramètre 0. 

Etant donné deux fonctions mesurables f(s) et f2(s) de R', dans R“, on 
écrira fi(s) = f2(s) L>]-presque partout, où est une famille de distribu- 
tions dans (R’, B'), si fi(s) = f2(s) partout sauf pour un ensemble N tel que 
P(N) = 0, vP e > 

DÉFINITION 2. On dira qu’une famille de distributions 7 = {Ge) dans 
(R!, S'), dépendant d’un paramètre à £ dimensions 8€86 C R* est complète 
si l'égalité 

[y(s)Ge(ds) = 0 pourtout 8€ 6 (2) 


entraîne y(s) = 0 [-presque partout. L'équation (2) est envisagée dans la 

classe des fonctions y : R' — R* pour lesquelles existe l’intégrale (2). 
DÉFINITION 3. Une statistique S est complète si la famille .Z de ses dis- 

tributions G4 induites par une distribution P, dans (2, 8°) est complète. 
Pour les statistiques, l’équation (2) peut être mise sous la forme : 


Eey(S) = O0 pourtout 8e 6 C R'. 


THÉORÈME 2. Une condition nécessaire et suffisante pour qu'une statis- 
tique S soit complète est que pour un (0) il existe un seul estimateur 6* 
o(S)-mesurable *) dans la classe de tous les estimateurs o(S)-mesurables de 
Kbo- 

S'il existe un seul estimateur o{S)-mesurable dans Ki, il en sera de 
même dans toute autre classe K%. 


DÉMONSTRATION. Elle est évidente, puisque l'existence dans Æ3%, de 
deux estimateurs o{S)-mesurables 8? = w1(S) et 87 = 2(S) signifie que 
fe(s)Go(ds) = bo(8), i = 1, 2, et 


le(s) — w2(5)] Ge(ds) = O pourtout 8e 6, 


de sorte que la complétude de S entraîne 15) = w2(s) L ]-presque partout. 

Réciproquement, supposons que [»(5)Ge(ds) = 0 pour tout 0 € 6 et que 
? = p1(5)EKr. Alors 07 = p1(s) + y(s)EXX et le fait qu’il existe un seul esti- 

mateur o(S)-mesurable signifie que y(s) = 0 [{]-presque partout. € 


THÉORÈME 3. Si une statistique exhaustive S est complète et 0*EkKy, 


l'estimateur 0 = E,(0*|S) est le seul estimateur efficace de Ke. 


*) C'est-à-dire mesurable par rapport à la tribu o(S) engendrée par S et par suite pouvant 
se représenter par #(S), où # est une fonction borélienne. 
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Ce théorème nous fournit des critères assez simples d’efficacité des 
estimateurs. 

DÉMONSTRATION. D’après le théorème 2, il existe un seul estimateur 
o(S)-mesurable dans 4. 

Soit 0** un autre estimateur de X,. Alors 0$* = E,(0**1S)EX, et par 
suite 0.** = 0$ LS ]-presque partout. De là et du théorème 1 il s'ensuit que 


Es(03 — 0) = Eo(6s** — 0)° < E(0°* — 8), 
et l'égalité n’est possible que pour 9°* = 0£ p.s. € 


COROLLAIRE 1. Si S est une statistique exhaustive complète et 0° un 
estimateur sans biais, alors 0? est un estimateur efficace qui, de plus, est 
unique. 


EXEMPLE 2. Dans l'exemple 1 avec la distribution de Poisson, nous 
avons vu que pour À* = x: 


X$ = E\(x1 15) = X, 


où S = 7x. Montrons que S est une statistique complète et, par suite, que 
x est un estimateur efficace. L’ équation (2) pour la statistique S s’écrit 


Due =0, W>0 


&K=0O 
ou, ce qui est équivalent, 
v(z) = 2 y) . = 0, vVz > 0. (3) 


Ce qui entraïne visiblement que y(£) = 0, puisque de la convergence de la 
série (3), disons pour z = 1, il s'ensuit que v(z) est analytique pour |zl <1 
et identiquement nulle. Donc, les coefficients y(£) de son développement en 
série sont nuls. 

EXEMPLE 3. Soit X# € Uno, +. Montrons que la statistique S = xx) = 
= max x; est complète. L’exhaustivité (et la minimalité) de S a été établie 

iSA 
dans l’exemple 13.2. La distribution de S est définie par 

P(S < s) = (5/8), 0 s < 6, 


de sorte que S admet une densité égale à ns" ” 0 ”" pour s€[0, 8]. L’ équation 
(2) devient alors 


e 
pe - ds = O0 pour 6€]0, œl. 
0 
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(J 
De l'égalité ( y(s}s"” ‘ds = 0 qui est valable pour tout 0, il s'ensuit visible- 


0 
ment que y(s}s"”! = 0, y(s) = 0 presque partout. 

Nous proposons au lecteur de vérifier si les statistiques exhaustives pour 
les autres familles paramétriques sont complètes. En particulier, établir que 
a* = + (i — 2 est le seul estimateur efficace du paramètre æ de la 
famille PF, 1 (cf. $ 2). 

Signalons maintenant que le théorème 3 nous suggère l'existence de rela- 
tions entre les notions de complétude et de minimalité. A ce sujet, on a la 
proposition suivante qui, combinée aux théorèmes du $ 13, nous fournit un 
critère de minimalité des statistiques exhaustives. 


THÉORÈME 4. Toute statistique exhaustive complète S est une statisti- 
que exhaustive minimale. 


DÉMONSTRATION. Soit Yo une tribu exhaustive minimale (celle-ci existe 
en vertu du théorème 13.1). Supposons que ES existe et considérons la 
fonction # = S — Ee(Sl%o). Puisque Yo C o{S), la fonction ÿ sera o{S)- 
mesurable et ÿ = Ÿ{S). Désignons par G: la distribution de S. Pour tout 
0 on a alors de toute évidence Esy{S) = 0 ou ce qui est équivalent 


| Y(s)Go(ds) = 0, v6€e €. 


De là il s'ensuit en vertu de la complétude de S que ÿ{s) = 0 [-presque 
partout, & = {Ge}. Ceci exprime que S = Es(Sl%o) L-presque partout 
et par suite, S est mesurable par rapport *) à Yo, o(S) = Yo. 

Si EeS n'existe pas, il faut à la place de S considérer la statistique 
Arctg S qui visiblement est équivalente à S par ses propriétés d’exhaustivité, 
de complétude et de minimalité. : 

Signalons que la réciproque n'est pas vraie : une statistique exhaustive 
minimale n'est pas nécessairement complète. On pourrait citer des exemples 
correspondants dans le cas où la dimension / de la statistique est strictement 
supérieure à la dimension # du paramètre 8. Dans le $ 13 nous avons vu par 
exemple que la densité conjointe de la statistique exhaustive minimale S = 
= (Xu), Xm) pour la famille Us, 1+0 est égale à 


D (nn — 1j(u - u)"7? si u > 0, v < 1 +86,v > u, 
golu, v) = 4) sinon. 


*) Par % on comprendra ici la tribu complétée par les ensembles N tels que PAN) = 0, 
v6. : 
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Si l’on considère la fonction y(u, uv) = g(u — u) et la transformation 
orthogonale (u — u)/V2 = 1, (uv + u)/V2 = z, l’intégrale (2) (étendue au 
triangle u > 0, vu < 1 + 0, vu > u) sera égale à 


1 
(tu, v)gotu, vidu du = nfn — 1) {ex - xx. 


(4) 


Il est évident que l’intégrale du second membre ne dépend pas de 8 et il est 
aisé de choisir une fonction (x) # 0 qui l’annulerait. 


$ 15. Famille exponentielle 


Supposons que 8 = (6:1,..., 8) est un paramètre à £ dimensions et que 
la densité fe(x) se représente sous la forme 


k 
fox) = h(x) exp [Saaueo + ve) , (1) 


où toutes les fonctions du second membre sont finies et mesurables. 

DÉFINITION 1. On appellera famille exponentielle et on désignera par le 
symbole & toute famille de distributions {P:]) dont la densité est de la 
forme (1). 

Pour rendre la représentation (1) la moins ambiguë possible, on admet- 
tra que les fonctions ao(0) m 1, &(0),.. ., a:(0) sont linéairement indépen- 
dantes sur ©. 

Nous verrons que les familles exponentielles occupent une place privilé- 
giée parmi les familles paramétriques de distributions, puisqu’elles permet- 
tent de nombreuses constructions générales de statistique mathématique 
sous forme explicite. 

Les familles de distributions de forme plus particulière *) correspondant 
au cas où a{6) = 6; sont parfois appelées familles exponentielles. 

Comme exemples de familles exponentielles citons les familles de distri- 
butions (Pa, c°}; {IL}, (B,}, [Ta, x}, etc. 

EXEMPLE 1. Considérons la distribution F4, x. Sa densité y, À\(x) peut 
être mise sous la forme 


D œ* 
Ya, XX) = FO * e = X exp {x inx — ax + In je). x > 0, 


°) Il s'agit en fait de la même chose : on est conduit à ce cas particulier en effectuant une 
application bijective y = (8), y = (y. . . . yx) et en posant y, = af{6). 
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de sorte qu’on peut poser ici 


x”7!, x >0, 
Le D 4 x<0, 
À 
Ui(x) = Inx, Ur) = x, Va, À) = In TO 
a(@, À) 7 À, (a, N) = — a. 
La fonction de vraisemblance pour X € PE “est égale à 


Jfe(X) = exp{(a(6), S) + nÿ(0)] IL A), 
où 
a(0) = (a(8), . . ., a(0)), S = (Sr, . . ., Sx), 


et (a, S) est le produit scalaire. De là et du théorème 12.1 il s'ensuit que S 
est une statistique exhaustive pour 0. On se propose de prouver que S est 
une statistique exhaustive minimale. 

L'exponentielle de (1) est toujours strictement positive, puisque les fonc- 
tions a{0), UX{x) et V(0) sont finies. Ceci exprime que pour distribution Q 
dans le théorème 13.1 (distribution pour laquelle toutes les P, sont absolu- 
ment continues par rapport à Po = |P:Q(df)) on peut prendre une distribu- 
tion concentrée en un point quelconque fixe 8°. Le théorème 13.1 nous dit 
donc que la tribu % engendrée par la fonction 

Je(X) 


= = = 2 0 
rx, 6) frCO exp{ (a(8) — a(8°), S) + n(V(8) — V(8°))}, 


est une tribu exhaustive minimale 


THÉORÈME 1. La statistique S est une statistique exhaustive minimale. 


DÉMONSTRATION. L'indépendance linéaire des fonctions 1, a1(0), . .. 
... ax(0) sur @ entraîne celle des fonctions a1(8) — a:(8°), . .., &(0) — 
— a:(0°). Ceci exprime que dans @ il existe & points 9!, ..., 0“ tels que les 
valeurs a;; = a’) — a0°) forment une matrice À de déterminant non nul. 
Ceci exprime à son tour que les équations 


(a(8) — a(8°), S) = Inr{X, 0/) — n(V(8) — (8), j = 1,..,k, 


admettent une seule solution S et par suite o(S) C o(r(X, 0)) ; J = 1, ... 
.. K) C Yo. 
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Dans l’exemple 1 nous avons étudié la distribution gamma et avons éta- 
bli qu’elle était justiciable de la représentation (1) pour 8 = (œ, À) et 


Ui(x) — In x, U(x) = X, 
a(@, À) DE X, æ(a, À) — —@. 


Il est évident que les conditions du théorème 1 sont remplies et la statistique 
S = (Zn x, 2ü) Ou ce qui est équivalent la statistique (IIx, Zu) est une 
statistique exhaustive minimale 

Si l’on renforce légèrement les conditions du théorème 1, la statistique 
S sera une statistique exhaustive complète, auquel cas sa minimalité peut 
être déduite de sa complétude. 


THÉORÈME 2. Soit X E PE Si une fonction a et un ensemble 9 sont 
tels que a (8) balaye un parallélépipède à k dimensions lorsque 8 parcourt 
6, alors S est une statistique exhaustive complète. 


Les conditions du théorème seront visiblement remplies pour le parailé- 
lépipède s1 l’ensemble 6 est « solide », Cest-à-dire contient des points inté- 
rieurs (ainsi que les sphères de R* de rayon assez petit centrées en ces 
points), et les fonctions a{0) sont linéairement indépendantes et différentia- 
bles au voisinage d’un point « solide » quelconque 0°. Dans ces conditions, 
la transformation a = a(8) envoie tout voisinage de 8° dans un ensemble 
solide. 

Il est évident que l’exemple 1 de la distribution gamma vérifie les condi- 
tions du théorème 2, de sorte que la statistique ([[x, 2x) est complète. 

Le lecteur pourra vérifier aussi aisément que la statistique (Ju, 3x?) 
est une statistique exhaustive complète pour la distribution normale &, à. 

DÉMONSTRATION du théorème 2. Les fonctions {5 8) et A(x) du théo- 
rème de factorisation de Neyman-Fisher sont ici 


ÿ{s 0) = exp{ (a(6), s) + nÿ(0)}, 
h(x) = IT A(x). 


im] 
Considérons sur (R*, 8“) la mesure indépendante de @ 
8) = [ AG"(dx), 
S”'(8) 


où S  (B) est l’ensemble de tous les x tels que S(x)e B. 
Enonçons les deux propositions auxiliaires suivantes sous forme de 
lermmes. 
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LEMME 1. La distribution Ge(B) = Pe(S(X)€B) de la statistique S est 
absolument continue par rapport à v et admet au point s une densité égale 
à ÿ{s, 6). 


DÉMONSTRATION. Elle découle de l'égalité 
Go(B) = | V{S(X), 9) AH" (dx) = | vis 6)v(ds), 


S(x)€eB seB 


qui est le résultat d’un changement de variables. 


LEMME 2. Soient G1 et G2 deux mesures o-finies dans (R*, %). Si 
fete WGi(du) = et “G(du) existent pour tous les a d’un parallélépipède 
1 de R*, alors G1 = Gz. 


DÉMONSTRATION. Pour simplifier les raisonnements, on se placera en 
dimension un (£=1) et on admettra que Z={x: |x| <a}. Alors 


hj(a) = [e“*G{du), j = 1,2, 


sont des fonctions analytiques pour | a| <a. Par ailleurs, pour tout b€R 
sont définies les fonctions h/(z) = (ets + PuG;(du) de la variable complexe 
z=a+ib. Il est évident que h;(z) seront analytiques dans la bande |a| < 
<a, —æ<b<oæ. Puisque H(z)=hM2(z) sur le segment de droite b=0, 
| a | <a, il s'ensuit que k1(z)= A2(7) pour tous les z de la bande mention- 
née. Donc 


fe" Gi(du) = |e/*G(du). (2) 


A noter que les G; peuvent être considérées comme des mesures de probabi- 
lité, puisque h;(0)= |G{du)< ©. Du théorème de correspondance biunivo- 
que entre les fonctions caractéristiques et les distributions ([11]) et de (2), 
il s'ensuit que G: = G:2. 

Si le parallélépipède J est de la forme {x : | x—ao| <a}, il convient de 
passer aux mesures G;(du)=e""G{du). 

La démonstration est exactement la même en dimension > 1. 

Nous pouvons désormais passer directement à la démonstration du 
théorème 2. 


Il nous faut prouver que si # est une fonction mesurable dans (R*, 8) 
et si existe 


fe(s)Gotds) = O pour tous les 6€0, (3) 


alors #{s)=0 L#]-presque partout, Z= {Ge)}sce. Supposons que 9 = * — 
—p7, où p* >0. De (3) il résulte alors que [p * (s)XGo(ds)= |  (s)Go(ds), 
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ou en vertu du lemme 1 
le* (sys 6)v(ds) = lo” (s)y(s 6)v(ds), 
fete ,(ds) = fe” (e (as). 


Si v * (ds)=* (s)v(ds), on obtient alors 
fe p+ (ds) = [e6%»- (ds) 


pour tous les a d’un parallélépipède de R“. Reste ensuite à appliquer le 
lemme 2. < 

COROLLAIRE 1. Si XE Pc; 0*EK, et si sont remplies les conditions du 
théorème 2, alors l'estimateur 0%= E(0* | S) est un estimateur efficace dans 
Ky. 


$ 16. Inégalité de Rao-Cramer et estimateurs R-efficaces 


1. Inégalité de Rao-Cramer et ses conséquences. Dans les paragraphes 
précédents nous avons établi une série de critères d'efficacité des estima- 
teurs. Mais ces critères revêtaient dans une certaine mesure un caractère 
qualitatif. Dans ce paragraphe nous poursuivons l’examen des estimateurs 
efficaces sous un point de vue légèrement différent. Voyons tout d’abord 
quelle est la plus petite valeur de l’erreur quadratique moyenne que l’on peut 
obtenir. 

Etudions d’abord le cas où 8 est un paramètre scalaire. Nous admettrons 
pour fixer les idées que l’ensemble 6 est un intervalle fini ou infini, fermé 
ou ouvert. 

Pour répondre à la question posée, il nous faut imposer des conditions 
de régularité à fe(x). Soient comme précédemment 


IG 0) = Info(x), L(X, 0) = 2: I(x, 6), a(8) = Ec0* = 6 + b(6). 
im] 


Supposons que sont remplies les conditions : 
(R). Les fonctions Vfa(x) sont continüment dérivables par rapport à 
0€6 pour [u]-presque tous les x, et l'intégrale 


AUTO) 
LL = Jo(x) 


existe, est strictement positive et continue par rapport à 6. (Ici et dans la 
suite le symbole prime désignera la dérivation par rapport à 6.) 

Faisons la remarque suivante relativement à l’intégrale (1). Si x et son 
voisinage n’appartiennent pas au support MNps= {X : fe(x) > 0] de la distri- 
bution P», l’intégrant (/4(x))/fo(x) donne lieu à une indétermination de 


(dx) = Eol/' Cu. 0) (1) 
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type 0/0. On conviendra que ce rapport est nul. Nous adopterons la même 
convention pour la dérivée /’(x 9)= fa{x)/fe(x) lors de son intégration. On 
peut se passer de ces conventions si dès le départ on considère les intégrales 
de la forme Eey{x1, 0) uniquement sur le domaine Nr. 

La fonction /(0) s'appelle quantité d'information de Fisher. Elle joue un 
rôle très important en statistique mathématique et interviendra fréquem- 
ment dans la suite Certaines de ses propriétés sont examinées au $ 17. 

Si l’ensemble 6 est compact, {a continuité de (0) dans les conditions (R) 
est équivalente à la condition. 


sup EL’ Ga, 0) ; |L'Gu, 8) > N) — 0 


pour N — , que l’on pourrait appeler convergence uniforme de l'intégrale 
I(8) (cf. Annexe VT). 
On a l'inégalité suivante pour la variance des estimateurs 0° de biais b. 


THÉORÈME 1 (inégalité de Rao-Cramer). Si 0°eK3, les conditions (R) 
sont satisfaites et E{0°Y <c<, alors 


+. [ + b'@) 
V# > a : (2) 
Si sur un intervalle [61,6] C © l'égalité est réalisée dans (2) et V@° >0, 
alors la fonction de vraisemblance f{X) se représente pour 0€16:1, 6] sous 
la forme 


fx) = exp{8”A(8) + B(8)}h(X), (3) 
où A(0) et B(6) ne dépendent pas de X. 


Réciproquement, si 0° =const ou si l’on a la représentation (3), alors 
l'égalité est réalisée dans (2). 


La condition (3) exprime de toute évidence que la distribution de densité 
fo(x) dans 2” appartient à la famille exponentielle € 


COROLLAIRE 1. Si les conditions du théorème 1 sont satisfaites, alors 


+ b°(6). 


e 2. [1 + b'(6) 
Eo@ — 0) > "-n® - 


Pour tout estimateur sans biais 0”, on a 


1 


. 2 
E(0 — 0) > I) : 
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Donc, dans les classes K3, la plus petite valeur possible des erreurs qua- 
dratiques moyennes est définie par les seconds membres des inégalités 
écrites. 

REMARQUE 1. Signalons à propos de la condition E:(0*) <c< © que si 
E.(0*)= ©, on a V40°* = « et l'inégalité (2) devient triviale. En vertu de (2), 
la condition V,8* >0 peut être remplacée par (1 + b’(8))>0. 

REMARQUE 2. Outre les conditions (R), on peut indiquer d’autres con- 
ditions très voisines l’une de l’autre et assurant la réalisation du théorème 
1. Nous nous attarderons sur celle d’entre elles qui nous sera utile dans les 
paragraphes suivants. Des conditions d’une forme différente seront exhibées 
dans le $ 22. 

Nous aurons besoin de la proposition auxiliaire suivante. 


LEMME I. Supposons que les conditions (R) sont remplies ef que 
S=S(X) est une statistique quelconque telle que EeS°<c< pour 0€0. 
Alors la fonction 


as(8) = EoS = [S(x}fAx)}x"(dx) (4) 
est dérivable par rapport à 6 et de plus 
as(8) = S(xÿs(x)x"(dx) = EoSL'(X, 6). (5) 


Cette proposition revêt un caractère technique et sa démonstration 
allourdirait considérablement l'exposé. Aussi l’ajournerons-nous à l'Annexe 
VI. 

DÉMONSTRATION du théorème 1. En admettant que S = 1 dans (5), on 
trouve que as(0) æ 1 et 


EsL’ = 0, Eoa(6)L’ = 0. (6) 
En utilisant encore (5) pour S = 8@* et (6), on obtient 
Ec0°L' = a'(8), Eo(@° — a(6))L' = a'(6). (1 
L'inégalité de Cauchy-Bouniakovski nous donne 
(a'(@6)) < E(@* — aG)) E{L'Y (8) 


ou ce qui est équivalent 


’ 2 
ue ue ALT ru () 


Vu que les variables aléatoires /; = /’(x;, 0) sont indépendantes, équidis- 
tribuées et admettent en vertu de (6) une espérance mathématique nulle, il 


2 
vient Eokl = 0 pour i # j, Ee(L'} = Eo (5) = DEobl; = nEolf = 
j i, j 
= n1(0). Ceci combiné à (9) prouve (2). 
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Prouvons la deuxième proposition du théorème. Pour simplifier, on 
admettra que 6 est confondu avec [6:, 6] et que la mesure y est concentrée 
sur la réunion des supports de Ps, 0€6. Dans (2) (ou dans (8)) l'égalité 
exprime que 


[@* — a(B)fsxy" (dx) = 


/ 2 
= IG = am" an) | Ge(x)) 


: 1/2 
FAT le Co] 


pour tous les 0€6. La première intégrale du second membre étant par hypo- 
thèse strictement positive, cette égalité n’est possible que si 


fo(x)/Vfo(x) = c(0)(0* — a(6))Vfo(x)  lu"]-presque partout. (10) 


Désignons par À l’ensemble des x pour lesquels est réalisée (10) et 
| 9* | <. Alors (4) = 0 (A est le complémentaire de À). Fixons x€A. 
La fonction fe(x) étant continue par rapport à 8, on a f{x) > 0 sur un inter- 
valle ]f1, 1 C 6 et en vertu de (10) 


L'’(x, 0) = c(8)(8* — a(8)) (11) 


sur cet intervalle. Remarquons maintenant que les relations (7), (11) et (2) 
entraînent 


ee - . _. « _ (a'(6)} 
a'(0) = Eo(0* — a(6))L' = c{6)V60*, V,0* = D 


(12) 
ni(6) 
Vo0® ” 


de sorte que V:8* est continue par rapport à 8 avec a’(8) et Z(8), quant à 
| c(8) | elle est uniformément bornée avec a(@) sur [@:1, @2] ; il en est de 
même de la dérivée L (x, 0) dans (11). Or ceci exprime que Lx, t) est finie, 
Je(x) > 0 partout sur 6 =[6:, 62], de sorte que (11) est satisfaite pour tous les 
0. En intégrant (11) entre 6, et 6, on obtient 


| c(8)| = 


0 0 
L(x, 8) = 6% [ c{)dt — | c(alt)dt + L(x, &), 


6: 6; 


ce qui est équivalent à (3) pour [4"]-presque tous les x. Ceci prouve (3), puis- 
que le changement de /s(x) sur un ensemble 4"-négligeable est sans effet. 
Considérons maintenant la dernière assertion du théorème. Si 
*=const, alors b’(8) = — 1 et les deux membres de l’inégalité (2) sont 
nuls. Supposons maintenant que (3) est remplie. En dérivant la fonction 
L(X, 0) par rapport à 8, on obtient alors 


L'(X, 0) = 60*A”(0) + B'(6). 
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De (7) il s'ensuit que a(8)4 ’(8) + B’(8) = 0. Donc, 
L'(X, 0) = A°(8)(8* — a(6)) 


et par suite (cf. (10)), l'égalité est réalisée dans (2). << 
Dans la suite nous omettrons le cas trivial 8* = const et supposerons 
que Vs8* > 0 partout sur ©. On a alors le 


COROLLAIRE 2. Les conditions (R) étant remplies, pour que la borne 
inférieure soit atteinte dans l'inégalité de Rao-Cramer, il est nécessaire et 
suffisant que l'estimateur 0* soit exhaustif et que la fonction {0*, 8) de 
l'égalité de factorisation soit de la forme 


ÿ(8*, 8) = exp{0*A(8) + B(8)}, 
où A(0) et B(8) sont des fonctions dérivables. 


COROLLAIRE 3. Si les conditions (R) sont remplies, 0*EK, et l'égalité est 
réalisée dans l'inégalité de Rao-Cramer, alors 0* est un estimateur efficace 
dans K+. 

Cette proposition résulte de la représentation 


Eos(0* — 0)? = Vo,0® + b°(6). 
A noter que la réciproque est généralement mise en défaut : un estima- 


SANS 
teur peut être efficace dans X% sans que la borne inférieure Ce 
de la variance soit atteinte. L 

EXEMPLE 1. Soit XE Ta, 1. Ici f(X)= œ"e *"*. Les conditions (R) sont 
remplies dans le domaine 6€ {æ2>6>0}. Il est évident que S=7x est une 
statistique exhaustive complète. Donc, l’estimateur «*=x"! = E,(x"'|S) 
est un estimateur efficace dans la classe X» de biais b(œ) = Ex”! — ©. 

Remarquons maintenant que SE... , de sorte que pour n7> 1 (cf. $ 2), 
on a Ex"! = nE.S”! = —— a. 

n — | 


L'estimateur a** = nn a* ( — +) sera donc sans biais pour 


n> 1. 
De façon analogue, pour nr >2 on trouve (cf. $ 2, ainsi que l'exemple 4.1) 


ST LL 2 -2_n—- 1 2 
Ec(a**) = (7 — LJ'ES sr de 


Voa** = | = | — a 


n — 2 n-2 
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Aüinsi, l’estimateur æœ** est efficace pour 7 > 2. Cependant, le critère (3) n’est 
pas rempli, puisque 
fAX) _ a”"e %- D/a°° 


Donc, la borne inférieure n’est pas atteinte dans l’inégalité de Rao-Cramer. 
On peut s’en assurer directement. En effet, on a ici /(x œ) = Inœ — ax 
l'(X œ) = 1/a — xet 


= , 2 — 1 DR 2 2 __ 1 
I(a) = Ef/’(x, a)] -E(L-x) RU her 7 7 


Donc, pour n>2 2 2 
] ses © = Vao** 
n1(0) n n -2 | 

Par conséquent, la réalisation de la borne inférieure dans (2) est une 
condition plus astreignante que l'efficacité. 

2. Estimateurs R-efficaces et asymptotiquement R-efficaces. Supposons 
remplies les conditions (R). Dans ce cas, la réalisation (exacte ou asymptoti- 
que) de la borne inférieure dans l’inégalité de Rao-Cramer peut servir 
d’important critère de qualité des estimateurs, un critère qui est étroitement 
lié à la notion d’efficacité. 

DÉFINITION 1. On appelle estimateur R-efficace (ou régulièrement effi- 
cace) dans la classe K;, un estimateur 8* tel que 


( + b’(6)) 
ni(6) 


On appellera tout simplement R-efficace un estimateur R-efficace dans 
la classe Ko des estimateurs sans biais. 
On dit qu’un estimateur 0* est asymptotiquement R-efficace si 


1 + o(1) 
ni(8) 


On remarque que, contrairement aux définitions du $ 8 qui revêtaient 
un caractère plus qualitatif, les définitions de la R-efficacité reposent sur 
la comparaison avec des valeurs numériques connues reliées essentiellement 
à la quantité d’information de Fisher ou plus exactement à la quantité 
(Q7 (0) 

Pour qu’un estimateur @* soit R-efficace, il est nécessaire et suffisant 
que soit réalisée (3). 

De ce qui précède 1l s'ensuit que les estimateurs R-efficaces sont effica- 
ces, mais la réciproque n'est pas vraie ; les estimateurs R-efficaces sont tout 
simplement plus rares, ce qui est un défaut de la borne inférieure dans l’iné- 
galité de Rao-Cramer, mais pas des estimateurs. 


Eo(0® — 0)? = + b°(0). 


Es(0* — 0) = 
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En statistique mathématique, les estimateurs R-efficaces sont appelés 
tout simplement efficaces. Pour notre part, il nous semble plus naturel de 
réserver le terme « efficace » à des estimateurs meilleurs dans une acception 
plus large (cf. définition 8.1). 


THÉORÈME 2. Si les conditions (R) sont remplies et si existe un estima- 
teur R-efficace, alors il est confondu avec un estimateur du maximum de 
vraisemblance. 


DÉMONSTRATION. Nous savons que la réalisation de (3) entraîne l'éga- 
lité (cf. (11)) 
L'(X, 9) = (8° — 8)c(6). 


Par ailleurs, puisque b(9) = 0, il vient de (12) 
c(0) = 1/V0,0* = n1(8) > 0, 


quel que soit 8€6. Ceci exprime que L’(X, 0) <0 pour 8>8* et L’(X, 8)>0 
pour 8 <0*. Donc, L(X, 8) atteint son maximum pour 0 =0*, < 
L'exemple 1 ci-dessus montre que contrairement aux estimateurs R- 
efficaces, les estimateurs efficaces peuvent ne pas être confondus avec ceux 
du maximum de vraisemblance. Dans cet exemple, x” ! est un estimateur du 


n — 


maximum de vraisemblance, alors que - L 7‘ est un estimateur effi- 


cace. Ces deux estimateurs sont visiblement asymptotiquement R-efficaces. 
Considérons la classe Ko des estimateurs 0* tels que pour 7 —+ « et tout 
CIS) 
| b(6)| < «48, n)/Vn, |b'(6)| < 6, n), 


Eo(0°} < c < ©, 


où €(0, n) est une fonction telle que €(8, nr) = o(1) pour n —+ «. 

Chaque classe Ko est remarquable par le fait que dans l’inégalité de Rao- 
Cramer, la borne inférieure est de la forme (1+0(1))/[17/(8)]. Au $ 20 nous 
verrons que dans bien des cas, en cherchant des estimateurs asymptotique- 
ment optimaux, on peut se borner à étudier des estimateurs 9* appartenant 
à de telles classes. 


THÉORÈME 3. Si les conditions (R) sont réunies, tout estimateur asymp- 


totiquement R-efficace de Ko est un estimateur asymptotiquement efficace 
dans Ko 


DÉMONSTRATION. Elle est évidente : si 81 est un estimateur asymptoti- 
quement R-efficace, alors 
e 2 _ 1 + o(1) 
Eo(61 — 0) = ——. 


ni(0) 


11—4195 
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Par ailleurs, comme déjà signalé, en vertu de l’inégalité de Rao-Cramer, 
pour tous les 0*€R 


lim.inf Eon(0° — 0)? > 17 (0) = lim Eon(61 — 0). < 


Il est également clair que si existe un estimateur asymptotiquement R- 
efficace, tout estimateur asymptotiquement efficace dans Ào sera asympto- 
tiquement R-efficace. 

Nous verrons plus bas (cf. $ 25) que sous certaines hypothèses complé- 
mentaires, les estimateurs asymptotiquement R-efficaces existent toujours 
et par suite, le théorème 3 admet une réciproque, savoir que tout estimateur 
asymptotiquement efficace de Ko est asymptotiquement R-efficace, c'est-à- 
dire que Eo(8” — 8)*—[n7(8)]" '. 


THÉORÈME 4. Supposons remplies les conditions (R). Si 6; et 6: sont 
des estimateurs asymptotiquement R-efficace de Ko, ils sont asymptotique- 
ment équivalents au sens suivant : 


Vn(6i — 62) + 0. 


DÉMONSTRATION. Elle est calquée sur celle du théorème 8.2. Puisque 
0° =(0; +02)/2€ Ro, en vertu de (8.11) et de l’inégalité de Rao-Cramer, il vient 


lim.sup Eon(0i — 62) < 0. < 


EXEMPLE 2. L'estimateur &° = X de la moyenne a de la distribution nor- 
male &.. , o° étant connue, est un estimateur R-efficace. On s’en assure 
sans peine en vérifiant par exemple la condition (3). Un autre moyen con- 
siste à comparer Va” = 0?/n à la plus petite valeur possible (n7/(œ))” ‘ des 
variances des estimateurs sans biais. Il vient 


IG œ) = — InV2r o — (x — æ)?/(20°), 
l'(x, æ&) = (x — a)/o, 
I(@) = Efl'Gu, a) = Esfxi — a)°/0* = 1/0°, 
de sorte que Vo” = (n{(œ))7! = o?/n. 


EXEMPLE 3. Considérons l’estimateur 9” = S? = 15 — a)? du 
is 


paramètre 0 = o° de la distribution normale, & étant connu. On trouve sans 
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peine que Vs” =E,(0" — 0°) =20"/n. Par ailleurs, 


16) = Eoll' Ga, OÙ = x Eeltu — a) — 67 = _ = ue 


Donc, ici aussi V0” =(71(8))" ! et l’estimateur 0° = S? est R-efficace. 
:  . ie 25 | 2 
La variance de l’estimateur sans biais S5 = = DT — x)" est égale 
: = 
à 2e L de sorte que cet estimateur n’est ni R-efficace ni tout simplement 


efficace. Par ailleurs, il est évident que Së est asymptotiquement R-efficace. 


Si au lieu d'estimer o? on estime le paramètre 9= 0, on n'obtiendra pas d’estimateur R- 
efficace. Un estimateur sans biais de o sera 


puisque 
o 1 
ES = —E Du - 


2 
. = > — a)? suit la distribution H, = F12, 2, donc (cf. $ 2) 


La statistique S étant minimale et exhaustive complète, l'estimateur o° est efficace. La for- 
mule de Stirling nous permet de nous assurer sans peine que o = S(1+O(1/n)). 
Comparons maintenant V.o” à la borne inférieure (7/(0))7". On a 


(13) 


(x — a} 


1 o) = == + F , 


—_ 
Eu » 


I(o) = E.fl'(x, o)}° = = E.{(x — a)? e … 
o 


11° 
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de sorte que (x/(0)) ‘= o2/(2n). Or cette valeur est différente de (13). Pour n =3 par exemple, 
leur rapport est égal à 0,936. Donc, il n'existe pas d'estimateurs R-efficaces ici. Lorsque n— 0, 


ke cocict de 6? dans (3) se conduit comme} + O( I), de some que s° ex 


un estimateur asymptotiquement R-efficace 


3. Inégalité de Rao-Cramer dans le cas vectoriel. Dans ce numéro 0 = 
= (61, . - - 0x) et l’estimateur 9° =(6:, . . ., 6x) sont des vecteurs à £ dimen- 
sions. Posons comme précédemment 


a(8) = Eô° = 0 + b(8), b(0) = (b1(8), . . ., b:(0)) 


et considérons les classes X% d’estimateurs de biais b(0) fixé. 
Les conditions (R) se généralisent de la manière suivante au cas vecto- 
nel. Posons 


IX 8) = logfex), Lx 8) = _. x, 8), 
1:50) = Es, 9x, (:)) 


et supposons que sont remplies les conditions 
(R). Les fonctions VfAx) sont continüment dérivables par rapport à 6; 
pour {k)-presque toutes les valeurs de x. La matrice 


16) = 1;;@O)E, 
16) = (Htx ; MAX ; OfoCOa(dx) 


est continue par rapport à 9 ‘) et son déterminant | 1(0)| est non nul 

Vu que (6) est la matrice des moments d'ordre deux Eli; des variables 
aléatoires 4 = /;{x, 0), elle est définie positive, puisque pour tout vecteur œ = 
=(o, ... œ)#00na 


ZaoEoll, = Es(Xal)* > 0, 


où l'égalité à zéro est exclue par la condition | /(8)| #0. 

Comme précédemment, l'inégalité matricielle o?>o2 sera comprise 
comme l'inégalité œoîa’ >ao3a” pour tout vecteur ligne a =(o1, . .., œ)# 
#0. Ceci équivaut de toute évidence à la semi-définition positive de la 
matrice of — 02. L’inégalité stricte correspondra à la définition positive, de 
sorte que par exemple {(9) >0. 


*) Il suffit d'exiger que /:(0) soit uniformément coavergente (cf. Annexe VI). 
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THÉORÈME 1A. Si 0°ekK, et si sont remplies les conditions (R), la 
matrice des moments d'ordre deux o?= loÿl = E4(0° — a(8))/(8° — a(8)) de 
tout estimateur 0° du vecteur ligne 0 vérifie l'inégalité 


> (E + DOI ONE + DE) (14) 


0b{0) 
06, 

Supposons que | | >0 (ou | E+D(6) | >0) pour tous les 0. Dans ce 
cas, l'égalité est réalisée dans (14) si et seulement si la distribution de 
l'échantillon appartient à une famille exponentielle de type spécial, c'est-à- 
dire lorsque pour des fonctions scalaires B(0) et h(X), on a 

SX) = exp{(8”, A(8)) + B(8)]h(X), (15) 
où le vecteur A(0)=(A:(0), . . ., A:(0)) admet une matrice de dérivées égale 
à 


où E est la matrice unité, D(0) = Kb;{0)h, b;40) = 


tag = OT - ne + DO) TO. 
J 
Pour les estimateurs 0° sans biais, il est évident que 
oc > (n(6)) | 
et l'égalité n'est possible que si a lieu (15), où LA; =n1(0). 


Si donc l’on réussit à trouver un estimateur 0° sans biais de matrice des 
moments d’ordre deux [7/(8)]” ', alors cet estimateur sera efficace. 


Signalons que 
Es(0° — 0)7(8° — 0) = o° + b”'(6)b(6). 


DÉMONSTRATION du théorème 1A. Posons 
L' = L\A, 0) = 2 1%, 0), 
=) 


L' = L'(X, 9) = (Li, ..., Lé). 
Exactement comme pour le cas scalaire, on trouve que 
Eol/Gu, 0) = 0, EwiL;(X, 8) = 1 + bÿ(6), 
où b;{8) sont continues, ou, ce qui revient au même, que 
EsL" = 0, (16) 
E(0°)'L' = E + D(6), (17) 
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où la matrice D(6) est continue. De là il s’ensuit 
E(0° — a(6))'L'’ = E + D(6). (18) 


Prouvons maintenant l’inégalité suivante (la version matricielle de l’iné- 
galité de Cauchy-Bouniakovski). 


LEMME 2. Soient £ et n des matrices de même dimension (pas nécessai- 
rement carrées) à éléments aléatoires. Si la matrice Enn’ est inversible, alors 


Ett” > Eën/(Enn°) Ent’. (19) 

Ceci étant, l'égalité n’est possible que si t=2n, 2=Etën/(Enmn)" !. 

DÉMONSTRATION. Puisque toute matrice À vérifie l'inégalité 4AA7>0 
(AAT est semi-définie positive), il vient 

O < E(E — 2n)(£ — 27)! = Et - zEn£” - Eën/z! + zEnn/27. 
En posant z= Etn/(Enn’)" !, on obtient l’inégalité annoncée. 

La proposition concernant les conditions d'égalité dans (19) est 
évidente. -« 


Revenons à la démonstration du théorème 1A. Posons £=(0" — a(@))?, 
9=(L’})" dans (19). Alors 


Eott” = Eo(9° — a(8))/(8" — a(8)) = 0°. 
De (16) et de l’indépendance des x; on déduit que 
Eonn” = Es(L')'L' = ni(6). 
De (18) il vient enfin 
Estn! = Eo(0° — a(8))'L'’ = E + D(6). 


Ce qui prouve l'inégalité (14). 
Dans (14) l'égalité n’est possible, en vertu du lemme 2, que si pour les 
points (x, 0) tels que fe(x) > 0, l’on a 


(@° — a(8))” = (E + D(G)Kn1@) ‘(L') 
ou, ce qui est équivalent, 
L' = (8° — a@)}nl(E + D(8)) ‘1'I(). (20) 
Remarquons maintenant que l'égalité dans (14) entraîne 
|[E + D@)|*=nl1-126)1, 


et la non-nullité du déterminant | o7 | entraîne celle de | E+D(8) | , ce qui 
exprime qu’existe la matrice inverse uniformément bornée (E+D(0))”!. 
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Donc, la dérivée L’ de (20) sera bornée, fe(x) > 0 partout sur 6 et l'égalité 
(20) sera vérifiée partout sur 6. Si maintenant s est un chemin quelconque 
reliant les points 8, et 8 du domaine 6, alors 


L(X, 6) =([(L’, ds) + L(X, ), 


s 


où ds est un élément vectoriel de chemin ; (L’, ds)=(L”, s’(l))dl l'accroisse- 
ment de L(X, 0) sur le chemin s ; / la « longueur » du chemin parcouru. 
Donc, en vertu de (20), 


L(X, 8) = 8°A(6) + B(6) + H(X), (21) 
où B(8) et H(X) sont des fonctions scalaires, 4(9)=(4:(8), . . ., Ax(8)) un 


vecteur dépendant seulement de ses arguments. Ceci prouve (15). 
Si (21) est réalisée, on a 


L' = 6"LA;A + B'(6), 
où, en vertu de l'égalité EsL'’ =0, 
B'(0) = — a()lAÿl. 
En multipliant les deux membres de l'égalité L’ =(0° — a(8))LA;;1 à gau- 


che par (0° — a(8))’, on trouve en vertu de (18) que, pour que la condition 
(20) qui exprime l'égalité dans (14) soit réalisée, il faut que 
LA;jA = n[(E + D(6)) 7 !]"1(0). < 
Toutes les remarques relatives à l’inégalité de Rao-Cramer ainsi que la 
définition de la R-efficacité dans le cas scalaire sont valables dans le cas vec- 
toriel mnutatis mutandis. 


En particulier, on appellera estimateurs asymptotiquement R-efficaces 
les estimateurs 0” tels que 


Eo(0° — 8)7(8° — 8) = o7 + b”(6)b(8) = (n1(8)) 7" + o(1/n). 
L'analogue du théorème 2 s’énonce comme suit. 


THÉORÈME 2A. Supposons remplies les conditions (R). Si 0° est un 
estimateur R-efficace, il est estimateur du maximum de vraisemblance. 


DÉMONSTRATION. Pour prouver qu’un estimateur R-efficace est le seul 
point de maximum, il suffit de s’assurer que L'’(X, 8°)=0 et que 


(grad L(X, 8), u) = (L'(X, 8), 8 — 8°) < 0 
pour ô= 0" +u, u#0. Or s’il existe un estimateur R-efficace, on a (cf. (20)) 


L'(X, 8) = (8° — 6)n1I(6), 
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d’où l’on déduit immédiatement les deux relations annoncées. La deuxième 
de ces relations résulte du fait que 


(L',u) = —unl(@)u”, 


où u](6)u7 est une forme quadratique définie positive. € 

EXEMPLE 4. Considérons une famille à deux paramètres de distribu- 
tions normales #,,2. Cette famille est exponentielle, puisque (ici 0= 
= (81, 62), 61 =, 62 = 0°) 


ft = 1 - ir 00 1 és { ne: x œ° 


e = 


V2r a V2x 


L’estimateur 0°=(01, 62), où 6@1=Xx, 6>= nes > (Lux)? = 
im 
= — (>x#- D) , est efficace, puisqu'il appartient à X9 et la statistique 


(Zx, >xi) est, comme nous l’avons vu au $ 15, une statistique exhaustive 
complète (cf. théorème 14.4). . 
L' estimateur du maximum de vraisemblance C 2x —x})?) diffère 


n—1 


7‘ la deuxième 


de 6° seulement par un facteur multiplicatif 


coordonnée, ce qui en fait un estimateur à biais. La fonction /e(X) n’admet- 
tra pas la représentation exponentielle spéciale (15) pour l’estimateur choisi 
8", puisque 


fX = C7 ap| - 2 + Sn - 2er no} = 


e n 2 no? 

ré ON - LE - nine). 
Ce qui exprime que la borne inférieure ne sera pas atteinte dans l’inégalité 
de Rao-Cramer pour le cas vectoriel. 

Le plus petit ellipsoïde de dispersion défini en vertu du théorème 1A par 
la matrice /(0) (ou 7” (8)) ne sera atteint qu’asymptotiquement pour 7 — 0, 
de sorte que l’estimateur 9”, à défaut d’être R-efficace, sera asymptotique- 
ment R-efficace. Vérifions-le directement. 

Calculons d’abord la matrice 7(9). On a 


on gs _ NE I 


= Qn""rep{ Ê 


li(x 0) = ESS. IZ(x, 0) = œ ro) =. 


$ 16] INÉGALITÉ DE RAO-CRAMER ET ESTIMATEURS R-EFFICACES 169 


(on rappelle que /Z est la dérivée par rapport à o° et non pas à o ; comparer 
avec l'exemple 3). Donc 


: (x: — a) __ 1 
I1(8) = Eee —7 — = e 


_— nY _ 
1120) = B1(8) = Eo ES - rs = 0, 


1 


B®) = 1 El — où - Cf = 
D'où il vient 
CCR MP | @2) 


Calculons maintenant, pour la comparaison, la matrice des moments 
centrés d’ordre deux de l’estimateur 9°. On a 


E(01 _ 6:) = Es(x _ œ)? =, 
Ex® - @) = Eu - oÿ = 2, 


Eo(0i — 0162 — 6) = 0. 


Les deux dernières égalités s’établissent par un calcul immédiat. Consi- 
dérons par exemple la deuxième d’entre elles. Il nous suffit de vérifier que 


EoG — a)S5 = 0. (23) 
Mais 
8 = —— [Ex - a - &- aÿ|, 
2 _ 1 _ 2 Il me 
G-as= [2e a) | [Ex a? | ETES) (x — a). 
Comme 


Es — a) = Eo(x — a) = Eo(x; — a)(x; — a) = 0, 


on obtient (23). 
La matrice des moments d’ordre deux de 8° —8 est donc égale à 


o/n 0 
0 20*/(n — 1) || 
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Il est évident que cette matrice diffère sensiblement de la matrice (1/(0))” 
seulement pour les petits n. 

4. Quelques conclusions. Fermons ce paragraphe en dressant le bilan des 
recherches réalisées dans les six derniers. Le principal objectif consistait à 
trouver des méthodes de construction d’estimateurs optimaux (dans un sens 
ou dans un autre) et à déterminer les bornes inférieures de leurs erreurs qua- 
dratiques moyennes. Quatre voies essentielles ont été dégagées. 

1. Construction d’estimateurs bayésiens (si l’on dispose d’une informa- 
tion a priori sur 0) et d’estimateurs minimax. 

2. Détermination des statistiques exhaustives complètes (ou' minimales) 
S. L'estimateur 85 = E:(9” | S) sera efficace dans la classe K, contenant 6°. 

3. Utilisation des estimateurs du maximum de vraisemblance dans les 
cas où est réalisé le critère (3) du théorème 1 (ou le critère (15) du théorème 
1A). On obtient aussi des estimateurs efficaces (voire même R-efficaces) 
dans les classes à biais fixé. 

4. Comparaison de l'erreur quadratique moyenne E:(8° — 8)? de l’estima- 
teur 8° avec la borne inférieure R définie par l’inégalité de Rao-Cramer. Si 
le rapport E:(9° —-8)?/R est proche de l'unité, l’estimateur 8° peut être 
retenu. Cette approche donne lieu à des résultats assez généraux liés à la 
construction d’estimateurs asymptotiquement efficaces, asymptotiquement 
bayésiens et asymptotiquement minimax. 

Faisons la remarque suivante. Dans toutes les voies mentionnées plus 
haut, la forme de la dépendance de la distribution P4 par rapport au para- 
mètre 0 joue un rôle fondamental. Mais en pratique il n’est pas rare qu’on 
ait à estimer non pas le paramètre 0 lui-même mais une fonction #(8). Ceci 
étant, il est aisé de voir (cf. exemple du schéma de Bernoulli dans (8.4), 
(8.5)) que l’estimateur &" = #(0*) ne possède pas toujours les propriétés de 
l’estimateur 0* (absence de biais, efficacité, etc. Restent valables les seules 
propriétés d'efficacité asymptotique si & est une fonction régulière). De ce 
point de vue, il est naturel d’estimer dès le départ des fonctions #(0) du 
paramètre initial 0. Nous avons renoncé à cette approche en raison de la 
notable complication de nombreux résultats fondamentaux. Par ailleurs, si 
g est une application bijective, l'estimation de (8) se ramène à un problème 
déjà étudié, moyennant une « reparamétrisation », c’est-à-dire l’introduc- 
tion d’un nouveau paramètre y = (0) auquel correspondra la famille de dis- 
tributions G,=P,-'(4. 


8 17* Propriétés de la quantité d’information de Fisher 


Nous avons déjà vu et nous aurons encore l’occasion de nous en assurer 
dans la suite que la quantité d’information de Fisher joue un rôle important 
en statistique mathématique. Etudions quelques-unes de ses propriétés. 


& 17] PROPRIÉTÉS DE LA QUANTITÉ D'INFORMATION DE FISHER 171 


1. Cas scalaire. La quantité d’information de Fisher 


Gs(x)) 
Jo(x) 


a fait son apparition dans le paragraphe précédent. La quantité 
P(6) = Es[L'(X, 6)? 


est traitée généralement comme la mesure de la quantité d’information con- 
tenue dans un échantillon X sur le paramètre 8. Dans le théorème 16.1 nous 
avons prouvé l’additivité de la quantité d’information : 2* (8) =n1(6), cest-à- 
dire que Z*(8) est égale à la somme des quantités d’information 
P(0)= Eol/’(x, 0)]?=1(8) contenues dans les observations indépendantes 
XJs + +) Xn. 

Prouvons encore une propriété de la quantité d’information de Fisher. 
Soit S=S(X) une statistique à valeurs dans R' et soit go(s) la densité de la 
distribution de S induite par la distribution P; dans (2, 9°) par rapport 
à une mesure À dans (R!, 8'). Conformément aux notations précédentes, la 
quantité 


(dx) = Esll'Gu, 8) 


16 = | 


15(8) = Eol(og ge(S))'} 


sera appelée quantité d'information contenue dans la statistique S sur le 
paramètre 6. 

Signalons que la valeur Z°(6) est indépendante de la mesure . En effet, 
soit À une autre mesure et »=X+X. Alors À et À sont absolument continues 
par rapport à », et la densité g4(s) de la distribution de S par rapport à la 
mesure » est égale à 


ge(s) = ge(s) _ = £ge(s) a, 


où £s est la densité par rapport à À. Puisque _s et _ sont indépendantes 


de 0, les dérivées des logarithmes de ces trois expressions seront confondues. 


THÉORÈME 1. Supposons que les densités fo(x) et ge(s) vérifient les 
conditions (R). Alors 
| 150) < P(6). (1) 
L'égalité est réalisée si et seulement si S est une statistique exhaustive. 


DÉMONSTRATION. Pour tout Be! désignons par S ” '(B)eB,l’ensem- 
ble des xe:2” tels que S(x)eB. Par définition de l’espérance mathématique 
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conditionnelle on a alors 
[ L'(x, 6)Potdx) = EolL'(X 9) ; XES7 (B)] = 


Rs = EJE(L'X 15:51.  Q) 
Par ailleurs, 

| L'ts oPads = | nan = 2 [sudo 
S” (8) s”'() B 


: | À &dSA(S) = Eollog gHS)' ; SEE]. () 
B 


En comparant (2) et (3), on voit que 
Ea{L'(X 8)1 5) = (og g4S))’ (4) 
[Pe]-presque partout. On a d’autre part 
0 < Es[L'(X, 0) — (log g{S)'T = 
= (8) + 1°(8) — 2EoL'(X, 0Xlog gS))’, 
où en vertu de (4) 
EcL'(X, 0)Yog go(S))’ = 
= Es(log g(S))'Es(L'(X, 8) | S)] = EelGlog g(S))'T* = 1°(6), 


ce qui prouve l'inégalité (1). 
Supposons maintenant que S est une statistique exhaustive pour 8. On 
a alors 


Je(x) = ÿ{S, 8)h(X). (5) 
Prenons pour À la mesure 


NB) = | A(G"(dx). 
CC) 


Comme prouvé au lemme 15.1, la distribution de S sera alors absolument 
continue par rapport à À et admettra une densité gg(s)= ÿ{s 8). De là on 
déduit, compte tenu de (5), que 

P(6) = EslL'(X 0) = Eel(ogytS, 8)'T = 7°). 


Prouvons maintenant que si légalité 1*(8) =1°(8) est réalisée pour tous 
les @, la statistique S est exhaustive. En effet, F*(0) est la variance de 
L'(X, 8), de sorte que 


P(0) =-Eo[L'(X, 8) — Eo(L'(X, 8)| SP + EdEoL'(X, 8)| S). (6) 
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Mais en vertu de (4) le dernier terme est égal à 
Eo{(og g{S))' T° = 1°(6). 
Puisque F*(8) =1°(6), dans (6) on a [Pe]l-presque partout pour tous les 8 
L'(X, 8) —- EsL'(X, 8)|S) = 0. 


Autrement dit, L’(X, 8) est mesurable par rapport à o{S) et par suite, il 
existe une fonction mesurable #{(S, 8) telle que 


L'(X, 0 = e{(S, 0), L(X, 0) = E(S, 8) + h1(X). 
Ju X) = explb(S, 0) + mA]. < 
Nous avons déja signalé que les statistiques exhaustives étaient les seules 
statistiques à réduire les données empiriques sans perte d’information sur 
le paramètre 8. Le théorème 1 confère à cette proposition une signification 


rigoureuse dans le cas de la quantité d’information de Fisher. 
EXEMPLE 1. Soit XEB,. On a 1c1 


fAx) = p'A - p)'"*, 


où x est égale à 0 ou à 1, f(x) est la densité par rapport à la mesure cardi- 
nale. Donc 


IX p) = x inp + (1 — x) In(i — p), 


‘’ —_ X er 1 =. 
= ’ 2 —_ 1 : L 1 L .- 1 
IE) = Ell'@, p} = pi) + ( (5 = — Ur D) 


Par conséquent, la quantité d’information contenue dans une seule observa- 
tion dans le schéma de Bernoulli est égale à (p{1 — p)) ” et atteint son mini- 
mum pour p=1/2. 

La quantité d’information contenue dans l’échantillon tout entier est 
égale à 7/(p(1 - p)). Désignons maintenant par » le nombre de « succès » 
dans l'échantillon X (le nombre d’unités) et trouvons la quantité d’informa- 
tion contenue dans cette observation. Les densités (par rapport à la mesure 
cardinale) de > seront égales à 


gAX) = CPU -— p} 7", x =0,1,...,n, 
de sorte que 
log gx) = x log p + (n — x)log(i — p) + log C:, 
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= _ 2 
r'E) = ElGog 8») = S Cru _ pr-"( = FE) = 


xs0O 


< n-x (X - np) 1 n 
_ Cr 1 — Re RE — V = | 
2: EN, @G -— p)} @U -p} pi -p) 


Cette égalité est conforme au théorème 1. 

Nous proposons au lecteur de trouver à titre d'exercice les quantités 
d'informations contenues dans des échantillons dont les distributions 
dépendent d’un paramètre scalaire (cf. $ 2). 

2. Cas vectoriel. Supposons maintenant que 8€R“, k>1. Dans ce cas 
nous aurons affaire à la matrice ur de Fisher de l'observation x: 


1) = MAO, Lf8) = Eo 5 lou, 6) 7 lu, 0) 


où l’on admet évidemment que la fonction fe(x) est dérivable. 
Si l’on pose 


px, 0) = (e1(X 8), . . ., xx 0)) = 


le ] Ofe(x) Ofe(x) 
= Je(x) ) - 7 ( 46) 9 ©.) d6k ): 


on peut mettre la matrice 7(0) sous la forme 
16) = [vx 6)ptx, Outdx). 


Nous avons déjà établi au $ 16 que, de même que dans le cas scalaire, 
la quantité d’information de Fisher est additive, c’est-à-dire que la matrice 
d’information de Fisher de l’échantillon X est égale à la somme des matrices 
d’information des diverses observations. Si l’on pose 


P°(8) = LAXGM, FX) = Er - LOX, 6) 7 LOX, 8), 
alors (8) =n1(8). 
Le théorème 1 reste entièrement en vigueur. Supposons que ge(s) est la 


densité d’une statistique S=S(X) à valeurs dans R' par rapport à une 
mesure À. Posons 


158) = UE), ISO) = Es _. log ge(S) 5 18 ge(5). 


Ceci est la matrice d’information de l'observation S. 
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THÉORÈME lA. Si les densités fe(x) et ge(s) satisfont les conditions (R) 
du &$ 16, alors 


15) < F(6), (7) 


c'est-à-dire que la matrice (0) — 1°(8) est semi-définie positive. Dans (7) 
l'égalité est réalisée si et seulement si S est une statistique exhaustive. 


DÉMONSTRATION. Elle est entièrement calquée sur celle du théorème 1. 
Nous l’omettrons pour abréger l’exposé. Le lecteur intéressé pourra la trou- 
ver par exemple dans [42] et [91]. 

EXEMPLE 2. Au $& 16 nous avons déjà calculé la matrice d’information 
pour la distribution normale. Calculons-la maintenant pour la famille à 
deux paramètres de distributions de densité 


_l,{x- a 
Lo(x) = =. ( = ). 
Ici 0=(œ, o) et f est une fonction dérivable donnée telle qu’existent les 


intégrales 


OA | 
fn f* LE dx = Ep. »xi(l'Cu)}?, à = 0, 1, 2, 


où {(x)=log f(x), le symbole « prime » désigne la dérivation ordinaire et les 
paramètres æ et o sont respectivement les paramètres de translation et 
d’échelle de la distribution de densité /{x). Nous connaissons donc la forme 
de la distribution à une transformation linéaire près de l’argument. Les 
paramètres æ et o de la distribution normale &.,..: sont visiblement des 
paramètres de translation et d’échelle. Le paramètre « de la distribution 
gamma pour À fixe est paramètre d'échelle au même titre que 6 l’est pour 
la distribution Uo.e. 
On a 


I(Xx 0) 


logfo(x) = — logo + (==) | 


01% 9) _ _1,, fx = « 
0@ o | 
1 


01(x 9) = __1 _ (x —- a) pr (X= 
Oo à o o? o : 


d’où 2 
L 5 f' 4-8.) 
Sa ae Nec) A D nc 
0 A 
Le 4 
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BO0)=— Er (2e) fi ee (ES) | a 


ou _ 2 
B28) = + Es Ë . = r (2) | = le - 1}, 
puisque 


Donc 1 HD “| 


1 = 
er LE 


Si f est une fonction symétrique, il est évident que Z; =0. 
La dégénérescence de la matrice /(0) exprime que son déterminant est 
nul ou, ce qui revient au même, que 


[Eo. °C + x1/'()) = Eo, n('G)) Eco. (A + xl’ (x1)}. 


Ceci n'est possible que si ou bien 1+x/’(x)= c{’ (x) pour un c quelconque, 
ou bien /’(x)=0. La première égalité entraîne 
1 
IG) = — Inx — c) + ca, J{x) = PERS 
X-c 

Il est évident qu’une telle fonction /{x) ne peut être densité d’une distri- 
bution. On traite de façon analogue le cas /’(x)=0. Donc, /(8) est définie 
positive. 

Pour la famille normale {4,2}, 0=(aœ, o), on a en particulier 


19 = + L | 


puisque dans ce cas {(x)=-22/2-Inv2r , l'(x)=-x lo= Et. x? =1, 
= Eco, »xi=0, 2 = Et. 1x1 =3. On aurait pu aboutir au même résultat en 
considérant l’exemple 16.4 et en se servant du numéro 3 ci-dessous où l’on 
étudie le comportement de la matrice d’information sous l'effet d’un chan- 
gement de paramètre (dans l'exemple 16.4 on a 0=(«, 9°) et non pas 0 =(@, 
o)). Nous proposons au lecteur de s’assurer maintenant qu’en vertu du théo- 
rème 1A la statistique (x, 2x) admet la matrice d’information 


1 0 
15(0 -+| | - "0. 
| 0 2 
3. Matrice de Fisher et changement de paramètre. Voyons comment se 


comporte la matrice d’information sous l’effet d’un changement de paramè- 
tre. Posons 0 = (8), BER*, où v est une fonction vectorielle dérivable, et 
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considérons la famille paramétrique P$)=P,49. Pour trouver la matrice 
d’information /(B) de cette famille, nous devons calculer les dérivées 


k 


ô : > | ô Ovi(8) 
ET I(x1; v(B)) = LA 6 (x, v(B)) 2 ‘ (8) 
Si l’on pose V= | ne , à J =1, ..., k, on trouve que le vecteur 
J 


l(x1, U(B)) des dérivées dans (8) se représente sous la forme /4 (x1, v(B))F, 
de sorte que 


J6) = EsléGa, vB) (x, v(B) M) = V'I(U(B))T. 


En particulier, si 8=8C C=lcyl, i j=1,..., k, alors V=CT et 


J(B) = CI(8)C". (9) 
A noter que l'équation paramétrique de l’ellipsoïde 
(8 — 8:)/(8)8 - &) < c (10) 


est invariante par une transformation linéaire inversible C sur 8. Plus exacte- 
ment, si l’on pose 8 =£C, l’inéquation (10) devient 


(8 — B}J(B)B — Bi) < c, 


où B1=%C"'. On obtient immédiatement cette inéquation en portant 
9 =BC dans (10) et en se servant de (9). 


& 18* Estimateurs des paramètres de translation et d’échelle. 
Estimateurs efficaces équivariants 


Nous avons vu aux $8 12 à 16 et nous verrons dans la suite combien la 
notion de statistique exhaustive est utile en général et dans la construction 
des estimateurs efficaces en particulier. Tout ce qui est rattaché à Putilisa- 
tion des statistiques exhaustives pourrait être appelé principe d'exhaustivité. 

Pour construire des estimateurs efficaces nous avons combiné le prin- 
cipe d’exhaustivité à un autre principe : le principe d'absence de biais. Ce 
dernier consiste à mettre en évidence une classe d’estimateurs de biais fixé 
et en particulier de biais nul. Sans fixer le biais 1l est impossible de cons- 
truire des estimateurs efficaces. 

Dans ce paragraphe et les suivants, ainsi que dans Île chapitre 3, nous 
étudierons un autre principe important de statistique mathématique : le 
principe d'invariance. 

Ces principes poursuivent le même objectif : leur introduction permet 
de restreindre de façon naturelle les classes des estimateurs considérés de 
12—4195 
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telle sorte qu’il soit possible de trouver des estimateurs efficaces dans les 
restrictions obtenues. 

1. Estimateurs des paramètres de translation et d’échelle. L'estimation du 
paramètre de translation est le problème qui consiste à estimer le paramètre 
a dans une famille de distributions {P,} telle que 


P.(4) = P(4 -— a). 


Ici P est une distribution fixe, À —- œ= {x : X+a€A}] et l’on admet que 
l’ensemble © est de même nature que Z: Si 2= R°”, on peut de toute évi- 
dence considérer des paramètres 9 de « moindre dimension », par exemple 
des paramètres scalaires, mais il faut alors fixer le sens (le vecteur e€:77 de 
la translation et étudier P,(4)= P(A + œe). Pour fixer les idées on ne traitera 
que le premier cas et l’on admettra que 6 =2= RT". 

A noter que la distribution P, de x; +c (c€R") est confondue avec la dis- 
trnibution P., :. de x;, c’est-à-dire qu’une c-translation des observations nous 
conduit à un échantillon de distribution P..,.. Il est donc naturel de n’étu- 
dier que les estimateurs &°=a@'(X) du paramètre « tels que 


œ'(X + c) = à«'(X) + c. (1) 


Ici et dans la suite, X+c représente le vecteur de coordonnées (x: + 
+C, ..., Xn+c). La violation de cette égalité exprime que l’estimateur a” 
dépend de l’origine du système de référence, c’est-à-dire de l’origine des 
coordonnées de l’espace :2°= R”. 

On procède de même quand on estime le paramètre d’échelle o de la 
famille {P,} telle que 


P.(4) = P(A|0), 0€]0, œl. 


On admet que co est scalaire, bien que l’on puisse envisager aussi le cas 
matriciel. Dans ce cas la distribution P, de x;c est confondue avec la distri- 
bution P. de x;, c’est-à-dire que la multiplication des observations par c 
conduit à un échantillon de distribution P... On peut se borner donc à étu- 
dier des estimateurs tels que 


(Ac) = co (X), (2) 
où XC=(x1c, ... XhC), puisque si les observations sont multipliées par c il 
en est de même du paramètre d'échelle. 
Le lecteur établira sans peine les propositions suivantes. 


Si une famille Ps vérifie la condition (A,), le paramètre 8 sera paramètre 
de translation (resp. d'échelle) si et seulement si 


Je(x) = f(x — 6) (res Je(x) = 7 ()): 
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Si 2 =R=O, XEP, et æ est un paramètre de translation, alors 
Y=et=(e, ..., e")EQ., où le paramètre o=e" est un paramètre 
d'échelle pour les distributions Q.. Ceci résulte directement du fait que la 
densité de y: =e” est égale à (cf. [11]) 


> Jan — a) = 1187 2) |. 


Réciproquement, si 2 =]0, œ[=0, XEP. et o est un paramètre d’échelle, 
alors Y=InX = (In x:1,...,1n x) E Q., où æ =ino est le paramètre de transla- 
tion des distributions Q.. 

On peut envisager l'estimation simultanée des paramètres inconnues œ 


et o dans le cas où P., .(A)=P 4=<) . Dans ces conditions, pour esti- 


mateur de o il est naturel de considérer des fonctions telles que 
œ'(X + ©) = œ'(X), o'(Xc) = co‘ (X). (3) 


Les estimateurs vérifiant les conditions (1), (2) et (3) des exemples ci- 
dessus s'appellent estimateurs équivariants (la définition générale est don- 
née au $ 19). L'introduction de tels estimateurs a pour but de restreindre la 
classe des estimateurs considérés afin de simplifier la recherche des estima- 
teurs optimaux. Ainsi, au $ 8 nous avons établi qu’il était impossible de 
déterminer les estimateurs uniformément (c’est-à-dire pour tous les 9) les 
meilleurs dans la classe de tous les estimateurs. Or il se trouve que la classe 
des estimateurs équivariants contient des estimateurs uniformément les 
meilleurs qui peuvent être, dans bien des cas, déterminés sous une forme 
explicite. Nous nous proposons d'illustrer ce fait sur l'exemple des estima- 
tions des paramètres de translation et d’échelle. 

2. Estimateur efficace du paramètre de translation dans la classe des 
estimateurs équivariants. On admettra 1ci qu'est réalisée la condition (A,), 
donc que f(x) = /{(x — x) et que u est la mesure de Lebesgue. 

Désignons par So la statistique 


So = So(A) = (x2 — X1, ..., Xn — X1) 


qui est visiblement invariante par une translation : So(X+c)= So(X). Dési- 
gnons par K£ la classe des estimateurs équivariants &”, c’est-à-dire des esti- 
mateurs vérifiant (1), et par |a| 2 le carré de la norme euclidienne de 
@€eR”. 


THÉORÈME 1. Soit &°=aœ'(X) un estimateur équivariant dont Eoc” est 
Jinie. Alors l'estimateur 


ao = à — Eo(a” | So) (4) 
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est indépendant du choix de «° et constitue l’unique estimateur efficace de 
Ke, c'est-à-dire que E.| @«o—-al?= min E.|œ-—aœ |? pour tous les « et 
ateKE 


E.la'-al?=E, |ao-a |? si seulement Eo(a° | Ss)=0 presque partout. 
L'estimateur œo peut être mis sous la forme 


._ [uACOdu  [uf{X — u)du 


0 FiGOdu TX - wdu | o 


L’estimateur «o s'appelle estimateur de Pitman. Il est aisé de voir sur (4) 
qu’il est équivariant et sans biais. L’équivariance résulte de celle de æ° et de 
l'invariance, par une translation, de la fonction P(S)= Eo(a” | So) qui 
dépend uniquement de S. L'absence de biais résulte des égalités 


Esao = à + Ecœ (X — a) — E, (So), (6) 
où E. (So) = Eo (So), Esa”(X — œ)= Eco (X). La dernière égalité découle 
du tait que Â -a€E Po, si XEP.. La somme des deux derniers termes de 
(6) «st donc égale à 

Eoc” — EolEo(æ | S)] = 0 ; Ecoo = «. 


Etablissons préalablement la proposition auxiliaire suivante. 


LEMME 1. Soit XEPo. Lespérance mathématique conditionnelle par 
rapport à So de toute statistique S=S(X) d'espérance mathématique Es | S | 
finie est égale à 


SX — x 
Eo(S| So) = 500 mœ AIX — M CNdu 


(X)du | 

DÉMONSTRATION. Toutes les fonctions figurant sous les signes d’inté- 
gration de (7) sont des fonctions de Æ — u. Si l’on fait donc le changement 
Xi —-u=v, On obtiendra des fonctions de (v, X2—x1+% ..., Xn —X1+v). Ceci 
exprime que le second membre de (7) ne dépend que de $. En vertu des 
propriétés de l’espérance mathématique conditionnelle, pour prouver le 
lemme, il nous suffit de montrer que pour tout AEa(So) 


Eo(S1 ; 4) = Eo(S ; À). (8) 
Soit Z=Z(S) une statistique o{(S)-mesurable bornée. On a alors 


(7) 


Z(So) | SG — ui (x)du 
EoZSi = | — ar — 0 = 


6 


; { { Z{(So)S(x — u}f{x — u}f{x) dx du. 


x — v)dv 


-ñn 
6” 6 
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Le changement x—-u—x dans l'intégrale intérieure nous donne (So(x) est 
invariante par ce changement) 


Z(S)SAY/GYG + u) 


MITETES ES dx du = [zsendr = Eo2S. 
9 co 


6” 


Ce qui prouve (8). Les deux changements d'ordre d’intégration sont lici- 
tes, puisque S est absolument intégrable et Z bornée. < 

DÉMONSTRATION du théorème 1. Remarquons tout d’abord que si &° 
est un estimateur équivariant, la quantité E, | &° — æ | * est indépendante de 
a. En effet 


Elo (4) - |? = El (X - a)|* = Ela« (M |*. 


Pour trouver un estimateur équivariant uniformément optimal, il faut 
donc trouver un estimateur æ&° minimisant Eo | æ° | ?. 

Soit «° un estimateur équivariant quelconque de a. Les propriétés de 
l'espérance mathématique conditionnelle nous donnent 


Eo|a|?=E|a" — Eo(o* | So) | + Eo | Eota | &)|? > 
> Eo| a —Eo(a” | So)|*. (9) 


Il reste à remarquer qu’en vertu du lemme 1, l’estimateur 
ao=@ — Eo(a” | So) est égal à (5) et ne dépend pas du choix de &'. Il est 
évident que dans (9) l'égalité est possible si et seulement si Eo(æ | So)=0 
presque partout. 

De la démonstration du théorème il ressort que la statistique 
So =(X2 — X1, . - ., Xn — X1) Qui est invariante par une translation joue un rôle 
particulier dans la construction d’un estimateur équivariant optimal. 
L'invariance de la statistique est une propriété qui dans un certain sens est 
contraire à l’exhaustivité, quant à la construction de l’estimateur 65 = 9° — 
— E(9° | S) qui vise à améliorer 8”, elle est dans un certain sens aussi con- 
traire à l'approche qui consistait à construire l’estimateur 85 = E+(9" | S) 
pour améliorer 0° à l’aide de la statistique exhaustive S. Ces deux approches 
sont contraires en ce sens que la statistique exhaustive contient toute l’infor- 
mation sur 6, alors que la statistique invariante n’en contient aucune. Pour 
trouver les meiïlleurs estimateurs nous avons cherché les statistiques exhaus- 
tives minimales ; ici il nous faudra trouver des statistiques invariantes maxi- 
males (telle est la statistique S). L'estimateur 65 est la « projection » de 0° 
sur S, alors que l’estimateur 6 s'obtient en soustrayant de 8° sa « projec- 
tion » sur So. 

En définitive, les résultats obtenus par ces deux approches sont souvent 
confondus comme le montrent les deux exemples suivants. 
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EXEMPLE 1. Soient 2=R, XE. 1. Alors 
- __1 _ 1 sl 


à —1 ap{- 1>u : D). de “5 7 (a 
VnQx) ? 


Le second facteur traité comme une fonction de « est la densité d’une loi 
normale de paramètres (x, 1/7). Le premier facteur étant indépendant de 
œ, on peut le simplifier dans (5) et l’estimateur de Pitman sera égal à œ° =x. 
On obtient le même résultat pour le cas vectoriel. 

EXEMPLE 2. Soient 2=R, X EU». 140. Alors 


_ [1 pour xm—1 < 0 < x, 
JotX) = {0 sinon. 


Donc, 


X«) 


8" = u du rc — X(n) + 1) = 2: (Xa) + X(m — 1). 
Xn) — 1 2 

Nous voyons par conséquent que dans la classe KE des estimateurs équi- 
variants, on peut construire des estimateurs efficaces sous forme explicite 
sans poser de conditions sur la dérivabilité de fe(x), l’efficacité revêtant un 
caractère exact et non asymptotique. 

3. Minimaximalité de l’estimateur de Pitman. Portons notre attention 
sur la forme de l’estimateur de Pitman. En gros, c’est un estimateur bayésien 
pour une distribution a priori « uniforme sur l’axe tout entier ». Formulons 
cette proposition avec plus de rigueur, puisque la distribution mentionnée 
n'existe pas. Supposons que 2=R et que Q" est une distribution uniforme 
sur [—-N, M, c’est-à-dire une distribution de densité 


a) = Eu [t| < N, 


[t| > AN. 
L'estimateur bayésien correspondant à Q‘" sera égal à 
N N 
. _ fgNGA)du 
RE 7177777 771 | we enau/ | ee 


Il est évident que pour tous les X, l’estimateur de Pitman oo est la limite 


ao= lim aq. Ceci nous suggère la convergence simultanée des moments 
N— 0 


d'ordre deux : 
Ea(aqm — a)” — Ec(ao — a). 
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Il s’avère que cette convergence a bien lieu et qu’elle est uniforme par 
rapport à & dans le domaine | a| < N-—VN. (La démonstration qui impli- 
que l'estimation de E.(ao-aow) est purement technique, aussi 
l’omettrons-nous.) 

Mais dans ce cas nous pouvons utiliser le critère de minimaximalité des 
estimateurs du théorème 11.3 : si un estimateur «° est tel que pour tous les 


Ec(a — a) < limsup[E{aqw — 1° Q°?(r), (10) 


où Q sont des distributions a priori (pas nécessairement uniformes) et 
aQw, les estimateurs bayésiens correspondants, alors x” est un estimateur 
minimax. 

Dans notre cas, m = E..(æo — æ)° est indépendant de «. En vertu des pro- 
priétés de la convergence mentionnées plus haut, on obtient donc 


lim. sup[Edaquw — 1}QM(ar) > 
N— 


> lim. sup es | Ekaqm — t)'dt > 


ve MH<N- VW 
1 h 
> lim. sup —— 2(N —- VNUm - à = m-e 
N— 2N 


pour tout e>0. Ceci exprime que la propriété (10) a lieu. 

Lestimateur de Pitman est donc un estimateur minimax dans la classe 
de tous les estimateurs du paramètre de translation (qu’il soit minimax dans 
la classe des estimateurs équivariants résulte de toute évidence de son 
efficacité). 

Ce qui précède peut être interprété de la manière suivante : la distribu- 
tion a priori « la plus défavorable » (cf. $ 11) du paramètre de translation 
est la distribution « uniforme sur l’axe tout entier ». 

L'indépendance de E.(œ0 — æ)° par rapport à œ (comparer avec le théo- 
rème 11.2) aurait pu servir également de critère de minimaximalité de l’esti- 
mateur de Pitman. 

4. Sur les estimateurs optimaux du paramètre d'échelle. Nous avons déjà 
signalé que l'estimation du paramètre d'échelle o pouvait être ramenée dans 
un certain sens à celle du paramètre de translation. Supposons pour simpli- 
fier que 2=]0, ©[=06.Si XEP., P.(4)= P(A | 0), alors Y=InX=(In x, … 
.. In x)E PŸ, où a =1In0, et la distribution P® admet une densité égale 


à celle de y:=Iin x au point y C condition (4,) est remplie, 


dP1(x) 


a = so) , C'est-à-dire (voir [11]) 
L 
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(LE =1(e-)e-" = 6 - o, 
190) = EX. 


Ainsi, nous pouvons estimer le paramètre æ de la meilleure façon à l'aide 
de l’estimateur de Pitman œ°=a"(}) et poser ensuite o’(X)=e" (. Il est 
immédiat de voir que o'(X) sera équivariant, puisque 


o'(cX) = e tin = Qt Co (X). 


Cependant il importe de signaler ici que l’estimateur de Pitman minimise 
E.(æœ" - æ)°. Donc, l'estimateur o° obtenu minimisera la quantité 


E, (in © ) (1) 


[4 


et non pas la quantité E.{o” — o)? à laquelle nous avions ordinairement 
affaire. Mais en cherchant un estimateur équivariant du paramètre o on n’a 
aucun intérêt à considérer l’erreur quadratique moyenne, puisque contraire- 
ment à (11) elle dépend d’une application contractante portant simultané- 
ment sur o° et sur oc. L’analogue de la statistique invariante S sera ici la sta- 
tistique (x2/x1, . .., Xn/X1). On peut évidemment considérer des erreurs 
autres que (11). Si par exemple l’on minimise la quantité 


E, (£ un 1). 
Oo 


le meilleur estimateur équivariant sera 
: {o”"-2f{X/0)do 
PRE 


= : (12) 
[o”” 3f(X/o)do 
(cf. [27]). 


EXEMPLE 3. Détection d'une source de rayonnement.Citons un exemple 
de problème de physique lié à l'estimation des paramètres de translation et 
d'échelle. 

Supposons qu’une source de rayons 7 est placée en un point inconnu z 
de l'espace. Le problème consiste à déterminer les coordonnées de z en repé- 
rant sur un détecteur plan (supposé confondu avec un plan de coordonnées) 
les traces du rayonnement, C'est-à-dire les traces de l’action des rayons émis 
par le point z sur la surface sensible du détecteur. 

Ce problème aurait été grandement simplifié si l’on avait eu affaire à une 
source de particules chargées douées d’une haute énergie. On aurait pu alors 
placer l’un à la suite de l’autre deux détecteurs plans parallèles et fixer les 
points de passage (C'est-à-dire d’action sur la surface de l’écran) de deux par- 
ticules en tout. Ceci nous aurait fourni la direction de vol de ces particules 
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et, partant, les coordonnées de leur point d’intersection z. Mais ce procédé 
est irréalisable pour le faible rayonnement > utilisé en radioscopie et l’on ne 
peut se servir que d’un seul détecteur. 

Les rayons y se propagent dans une direction aléatoire qui est uniformé- 
ment distribuée sur une sphère (si cette direction est définie par un point 
sur une sphère centrée en 2). 

Pour simplifier ce problème nous le traiterons dans le plan. Supposons 
que la source est située en un point z2=(@, o), a>0, du plan (x y). L’angle 
que fait la direction du rayonnement avec l’axe Oy est uniformément distri- 
bué sur [0, 2x]. Le détecteur est confondu avec l’axe des abscisses. Les résul- 
tats des observations seront les points x1, X2, . .. d'impact des rayons 7 sur 
le détecteur. 

Le trait spécifique de ce problème est que la taille nr de l'échantillon 
obtenu durant un intervalle de temps f fixe sera aléatoire : le nombre des 
rayons gamma émis par la source durant le temps f suit la loi de Poisson 
de même que le nombre des rayons gamma atteignant le détecteur, puisque 
chaque rayon atteint l’axe des abscisses avec une probabilité 1/2. Mais, dans 
notre cas, le nombre n et les observations x1, x2, ... sont indépendants. 
Nous pouvons donc envisager le nombre 7 d'observations obtenues et 
admettre qu’il est fixe (la distribution de x; sera la même pour chaque n 
ainsi obtenu). 

Soient données les observations X=(x1, . . ., x,). Notre problème con- 
siste à estimer les coordonnées (œ, o). Montrons que XEK.. ., C'est-à-dire 
que x; sont distribuées suivant la loi de Cauchy de paramètres de translation 
a et d'échelle sc. 

En effet, la distribution conditionnelle de l’angle B formé par la direction 
de propagation d’un rayon y avec l’axe (0, — y) sachant que ce rayon atteint le 
détecteur sera uniforme sur l'intervalle { —- x/2, x/2]. Comme (x -— œ)/o =tg8 
(cf. fig. 2), 1l vient 


Pa, Lx < 2) = 3 + + Arctg À : 


La densité de la distribution de x. sera donc égale à la densité de la distribution 
de Cauchy (cf. $ 2) 


ka, 9) = — ——— = | 
xo 1 + ((x — @)/0) ro + (x = «)) 


Supposons maintenant que o est connu, par exemple a=1. Le meilleur 
estimateur invariant du paramètre de translation & sera alors l’estimateur de 
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Pitman qui est égal à la moyenne &° = juptu)du de la distribution de densité 
Ku(X) 


CDR Eco 


Ku(X) = IT & 6) Ku(X) _ Ku, 1(X) _ ENET : 


L'estimation du maximum de vraisemblance &”° sera le point de maximum 
de w{(u). Nous montrerons plus bas (cf. $$ 24, 25) que œ et à sont 
asymptotiquement équivalents et suivent une loi asymptotiquement normale 


Fig. 2. 


de paramètre 1//=2 (dans le cas considéré 7 ={[(ki)/kodx = 
= 4x” 2 +x2)7 dx =1/2). De ce qui précède il s'ensuit que l'erreur des 
estimateurs æ° et &’ est de l’ordre de 1/Vn pour les grands n. 

Il est intéressant de noter que dans ce problème on peut obtenir une plus 
grande précision en plaçant entre le point z=(a, 1) et le détecteur un écran pa- 
rallèle à l’axe des abscisses et muni d’un orifice H qui seul laissera passer les 
rayons . Les positions de l’écran et de l’orifice sont choisies par l’expérimen- 
tateur et sont donc connues. 

Dans ce cas la distribution des observations sur l'écran sera discontinue et 
pour de petits orifices H sera proche d’une distribution Usa. ax +» dont on 
connaît les constantes a et b. Dans l'exemple 2 nous avons trouvé la forme d’un 
estimateur équivariant efficace «y pour cette distribution. L’estimateur œx est 
défini par les valeurs extrêmes de l’échantillon et admet une précision de l’ordre 
de 1/nx4, où ny<n est le nombre d'éléments de l’échantillon associés aux 
rayons passant par l’orifice (r7# et n sont aléatoires et suivent la loi de Poisson). 
Vu que rest en moyenne proportionnel à #7, pour les 7 assez grands on obtient 
l/nx € 1/ Vn. 
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$ 19*. Problème général d'estimation équivariante 


Considérons le groupe G des applications mesurables g de l’espace 27 
dans lui-même, douées des propriétés suivantes : 

1) Toute application g applique 27 sur 27, c'est-à-dire que pour tout 
xX2€D7 il existe un x,€27 tel que x2 = gx. 

2) Les applications g sont bijectives. 

Toute application g doit être mesurable afin que gX soit une variable 
aléatoire. La propriété de groupe exprime que #g1€G si g1€G, &€G ; l’appli- 
cation identique e et l’application réciproque g ” ! appartiennent à G (de sorte 

1 = 
que g  g=e). 

DÉFINITION 1. On dit qu’une famille de distributions { Pe} est invariante 
par le groupe d'applications G (ou pour abréger, tout simplement invariante) 
si pour tout couple (£, 8) tel que geG et 060 il existe un seul 8,€6 tel que la 
relation XE P+ entraîne gX E Po. 

La valeur 6, définie de façon unique par 8 et g sera désignée par 0, = £6. 
Cette définition exprime alors que 


Po(LXEA) = Pyro(XEAÀ). 


__ Puisquela condition (Ao)est remplie en vertu de la définition 1, l’ensemble 
G de toutes les applications g de © dans lui-même a une structure de groupe. 
En effet, la distribution de g2g1.X est donnée simultanément par les 
distributions P:5e et Pare. La condition (40) entraîne que g281 = g182 et 


= êÊ _ 
que gr !eG (il suffit de poser g = gr ‘). Les applications g de G sont automa- 


tiquement bijectives. Cependant, G et G peuvent ne pas être isomorphes. Sup- 
posons par exemple que XE Do, s', 0€]0, œ[. Dans ce cas, la densité Jo, (4) 
(la fonction de vraisemblance) ne dépend que de © x? Si donc G est le groupe 
des rotations (des transformations orthogonales de 2” ), alors les conditions 
de la définition 1 seront remplies, tandis que g=e et le groupe G ne sera 
composé que du seul élément € : l'application identique de 6 =]0, [ dans 
lui-même. 

Nous laissons au lecteur le soin de vérifier à titre d’exercice que si {Pe} est 
invariante par le groupe G, elle l’est par tout sous-groupe G1 de G. 

Dans le problème général d’estimation équivariante, la comparaison des 
estimateurs doit être envisagée d’un point de vue un peu plus général. Jusqu'ici 
nous avons apprécié l’erreur d’un estimateur par la quantité (0° — 0). Nous 
admettrons maintenant que l'erreur de 8” est mesurée par une fonction 
w(8”, 8) et que cette fonction possède la propriété d’ « homogénéité » *) : 


w(£0, 20°) = w(6,8") pour tous les 0. (1) 


*) Cette propriété n'est pas obligatoire en théorie de l'estimation équivariante. On peut exiger 
seulement l'existence d’un $0° tel que w(£8, £0 )= w(8, 8 ) pour tous les 8 (cf. [27]). 
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Cette propriété caractérise précisément les fonctions w(8, 8°)=(0 — 8°)? pour 
le paramètre de translation (translation) et w(8, 4°)= (e +) ou (5 — 
— 1) pour le paramètre d’échelle (contraction). 


Nous avons vu au n° 4 du $& 18 que la recherche du meilleur estimateur 
invariant pouvait être très sensible au choix de la mesure de l'erreur w(8, 8°) 
de l’estimateur 8°. 

Considérons maintenant le problème d’estimation pour des familles 
invariantes {Pa}. Supposons qu’on dispose d’un échantillon X# au vu 
duquel on a construit un estimateur 0° = 8"(X) du paramètre 8. Si l’on consi- 
dère l'échantillon Y=£8XE€Pye, alors 8°(Y) sera un estimateur de‘g0. Ceci 
étant, il est naturel de supposer que les estimateurs 8°(X) et 8°(Y) sont liés 
entre eux comme les paramètres 0 et 20 à estimer, Cest-à-dire par l’applica- 


D 8 (N) = 86°C. Q) 


En vertu de (1), l’estimateur 9”(Y) du paramètre g9 donne lieu à la même 
erreur que l’estimateur 0”(X) du paramètre 8. Nous avons donc deux problè- 
mes « identiques » d'estimation. Les applications g% et £0 peuvent être 
interprétées comme des changements de coordonnées. La relation (2) 
exprime alors que l’estimateur 0° est indépendant du système de coordon- 


nées et vérifie 8" = 27 0"GX). G) 


En d’autres termes, si 9” est choisi de façon à vérifier (2), peu importe alors 
lequel des deux problèmes d’estimation il fut résoudre, puisque les résultats 
acquis sur g0 dans le deuxième problème peuvent être étendus à 8 dans le 
premier grâce à l'égalité (3). 


DÉFINITION 2. On appelle estimateur équivariant ‘) un estimateur 0° du 
paramètre 6 de la famille invariante {Pe} vérifiant (3). 

Considérons un point quelconque &€@ et l’ensemble des points « équi- 
valents » 0 = £8o, geG. Les classes des points « équivalents » ainsi définies 
déterminent une partition de l’espace en sous-ensembles appelés orbites. 


THÉORÈME 1. La valeur Esw(6, 6°), où 0° est un estimateur équivariant, 
est constante sur une orbite, c'est-à-dire que 
Esw(0, 0°) = Ejew(g6, 0) 
quels que soient 0€6 et geG. 
*) De tels estimateurs sont parfois appelés invariants. Mais ce terme est moins exact. Il 


vaut mieux le réserver aux estimateurs tels que 8"(£2X)= 8"(2) (Cest-à-dire pour le cas où £=e, 
V£). 
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DÉMONSTRATION. 
Esw(8, 9°(X)) = EowGO, 80° (X)) = 
= EwG, 0(8X)) = Eow(@, 0"(X). 


Si l'orbite {0 : 0 = g@0b, g€G}] est confondue avec 6 (comme dans le cas 
des paramètres de translation et d’échelle), alors E+w(8, 0°)=const sur @. 
Cette égalité exprime que 0° est minimax (comparer avec le théorème 11.2), 
de sorte que les meilleurs estimateurs équivariants sont souvent minimax 
dans la classe de tous les estimateurs (pour plus de détails cf. [27]). 

Des théorèmes du $ 11, il s'ensuit par exemple le 


THÉORÈME 2. Si @ est une orbite et si un estimateur équivariant 0° est 
bayésien (ou la limite d'estimateurs bayésiens ON au sens de la convergence 
Eow(0, 0°)= lim Eew(0, 0N)), alors 0° est un estimateur minimax. 

No 


Signalons également l’importante propriété suivante des estimateurs 
équivariants. Il nous sera commode de désigner par »(g dx)/r(dx) la densité 
de la mesure »,, v,(B)= v(gB), par rapport à la mesure » en un point xe.Z ”. 


THÉORÈME 3. Supposons qu'est réalisée la condition (À,), que 
u"(g dx)/ux"(dx) est finie et strictement positive pour tout geG et pour [x"]- 
presque toutes les valeurs.de x. Supposons par ailleurs qu'il existe un seul 
estimateur du maximum de vraisemblance 0 pour tout X. Dans ces condi- 
tions, st la farnille {Ps} est invariante, alors Ô est un estimateur 
équivariant. 

DÉMONSTRATION. On a 

Ps-x(dx) Po(ax) 


fo (A) = — 5 = max 


. (4) 
(dx) e  p'(dx) 


au point x=X. En admettant que Ÿ=gX, on peut écrire 
Pé-cn( dx) Po(g dx) 
BEN) = — > — = max ——— . 
Po ed Te Ed) 
Puisque la famille {Pe) est invariante et x"(£ dx)/u“(dx)>0 est finie, ceci 
équivaut à 
Pg° ‘6 n(dx) Py-'(dx) Pe(dx) 
————— = MAX ———— = max : 
x" (dx) 0  u”"(dx) e  x'‘(dx) 
En comparant avec (4) et en utilisant l’unicité de 8" (X), on trouve que 
87 0 (&X)=6 (7). < 
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$ 20. Inégalité intégrale de Rao-Cramer. Critères pour qu’un estimateur soit 
asymptotiquement bayésien et asymptotiquement minimax 


Ce paragraphe aurait pu être intitulé aussi « Inégalité pour l'erreur qua- 
dratique moyenne dans le cas bayésien ». Il relève dans sa plus grande partie 
de la théorie de l'estimation. 

Les problèmes liés à l’approche asymptotique de comparaison des esti- 
mateurs ont été examinés antérieurement. Désormais, et essentiellement 
dans les $$ 23 à 29, ils seront le principal objet d’étude. 

1. Estimateurs efficaces et super-efficaces. Au $ 16 consacré à l’inégalité 
de Rao-Cramer nous avons laissé ouverte l’importante question suivante. 
Soient réalisées les conditions (R). Pour les estimateurs sans biais, on a 
alors : : 1 

Fa ni 6) > nl) : 

Le second membre de cette inégalité est appelé parfois borne de Rao- 
Cramer. Cette borne est atreinte pour les estimateurs R-efficaces. La ques- 
tion est de savoir si le choix d’un biais approprié est susceptible d'améliorer 
tant soit peu les estimateurs R-efficaces ou asymptotiquement R-efficaces. 
Cette cuestion concerne l’importance de la borne de Rao-Cramer et le rôle 
du biais. 

Le fait qu’en un certain point fixe @ la valeur E:(9° — 8)? peut être rendue 
bien plus petite que la borne de Rao-Cramer a déjà été discuté. Il suffit en 
effet de prendre 8° =6@o. Mais cet estimateur sera très mauvais ailleurs. 

On peut citer un autre exemple moins trivial où cette amélioration n’est 
pas acquise au détriment d’autres points. Supposons que XE&. 1, 
@€O =[0, œl[. L’estimateur «° = X est alors efficace et même R-efficace. Mais 
l’estimateur æ°"° =max(0, x) sera visiblement meilleur dans le cas où 6 =[0, 
o[{, puisqu’il diminue les erreurs quadratiques moyennes en remplaçant les 
valeurs négatives inadmissibles par 0. L’estimateur °° sera manifestement 
biaisé : Eca' >a, mais au point œ=0, on a /(œ)=1, Eo(æ ) = ; 

2 | | 
Eoa 7 = < 7 

L'amélioration réalisée dans cet exemple est le résultat de la restriction 

du domaine des valeurs de l’estimateur œ° à l’ensemble 6. Citons encore un 


exemple dû à Hodges dans lequel l’amélioration de l’estimateur &° n’est pas 
la conséquence d’une restriction de ©. 


Supposons encore que À E &.. 1, «€6 =]- ©, œf. En plus de l’estima- 
teur efficace «° =X, considérons pour B<1 l’estimateur 


s. X si |X| >n7174, 
(0 4 = = ‘ 
6x sinon. 
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Il est immédiat de voir que pour æ>0, le théorème limite central 
entraîne : 


PIX] < nn!) < PQ — a)ÿn < n°“ — an) —+ 0 


pour 7—+ . Cette proposition est également valable pour æ<0. Donc, 
pour æ #0, l’estimateur «°° est confondu avec B x sur un ensemble dont la 
probabilité converge vers 1 et, par suite, d’après le théorème de continuité 


(ax — a)Vn & Do. 1. 
Si æ=0, 
Po(|x| < n°") = Po(|xvn| < n°) — 1, 


et l’estimateur æ°° est confondu avec x sur un ensemble de probabilité ten- 
dant vers 1, de sorte que (œ'°-a)Vn&o. #. Donc, l'estimateur &°° est 
asymptotiquement normal pour tous les &, et (œ°°—a)Vn& do, s'()» OÙ 


| si à # O0, 
Fo = {ue si a = 0. 


Au point æ=0, le paramètre de dispersion °(0) est par conséquent stricte- 
ment inférieur à la borne inférieure de Rao-Cramer qui est égale à 1. 

Les estimateurs asymptotiquement normaux pour lesquels o(8)< 
<17 (6) pour certains @ s'appellent parfois super-efficaces. 

Mais les exemples envisagés ci-dessus bousculent peu le principe somme 
toute exact de la préférence des estimations efficaces. Plus exactement, Le 
Cam a montré que l’amélioration des estimateurs mise en évidence dans ces 
exemples ne pouvait être réalisée qu’en un nombre peu élevé de points. 

Dans ce paragraphe on montre qu’outre la relation inf E;(8° —-1)?=0, 


valable pour tout f, l'intégrale de E{8° -r)* admet une borne inférieure 
strictement positive indépendante de 0” et est étroitement liée à une inté- 
grale analogue de la fonction (n/(#))"'. Plus exactement, dans le cas où 
0ER, nous établirons une inégalité pour 


inffE48" — 1) qU) dr, (1) 


valable pour toute fonction de poids g(f)>0, (710) dt =1, dont le second 
membre sera indépendant de 8° (et en particulier du biais b(r) figurant dans 
l'inégalité de Rao-Cramer) et proche de la valeur J/n, où 


_\ 40 
J = (a dt. (2) 


2. Inégalités fondamentales. Avant d’énoncer les théorèmes correspon- 
dants, on remarquera que l'intégrale de (1) peut être considérée comme 
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l'espérance mathématique E(9° — 8)? dans le cas bayésien où 8 admet une 
distnibution a priori de densité g(f) par rapport à la mesure de Lebesgue. 
Dans ce cas, J=EZ" (0). 

Désignons par /{x, f)= f:(x}gq(t?) la densité de la distribution conjointe de 
X et de 8. La dérivée de j:(x) par rapport à f sera désignée comme précédem- 
ment par /{x). 

Supposons par ailleurs que N,C 6 est le support d’une fonction h défi- 
nie sur 60: M={t: h() #0), et N le support de {x ft) dans 27 x 0. 


THÉORÈME 1. Supposons que f.(x) est dérivable par rapport à t et que 
la fonction VI(t) est intégrable sur tout intervalle fini. Pour toute fonction 
R() dérivable à support borné (c'est-à-dire nulle en dehors d'un intervalle 
fini) telle que NCNa On a alors l'inégalité 


9° —. 0 2 > a CO) + 
EC D 2 OR OAOG) + Er O4OP 


L [h(e) dt | 5 
 nllOhb/q(0 dt + [h'(0)/q(0) dt 


DÉMONSTRATION. La fonction A(f) étant à support borné, on a 


(GiGAG)" dt = (di) = 0, 
GA)" at = - (FRE) dt. 


Pour tout 8° il vient donc 


ROC TOOENCE 


AM 6 
M Q 9 


En vertu de la condition MCN,, ces intégrales peuvent être considérées 
comme des intégrales sur N. Nous pouvons donc multiplier et diviser l’inté- 
grant de (4) par j{x, t). Nous obtenons alors 


ele — 0) en = (#60 à = E AGO) 


AX, 8) g6) 
Nq 
D'où 1l s'ensuit en vertu de l’inégalité de Cauchy-Bouniakovski 
E6° — 6? > [E(A(6)/g (6) (5) 


APE SLT 6 9710) 
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Reste à ramener cette inégalité à la forme (3). Remarquons préalable- 
ment que 


E|L'(X 9! < nVIO 
et que pour presque tous ‘) les # 
EL'(X, 1) = 0. (6) 
La première de ces propositions résulte des relations 
EIL'(X 91 <nEll'G NÀ< nr (El, 0P)? = nVIO, 


qui sont la conséquence de l'inégalité de Cauchy-Bouniakovski. Pour prou- 
ver la deuxième assertion, prenons une fonction quelconque g(f) à support 
borné, admettant une dérivée partout continue. Alors 


(eG UN) dt = - {8 (NC dt. 
Par ailleurs, 
(leOIEIL'X n1dr < nfleW|VTIO dt < ©. 


De là il s'ensuit qu’on peut intervertir l’ordre d’intégration dans l’expression 
suivante : 


JOEL x nat = | [ect dv(a) = 
7 0 


> L [8 GC) dtu"(dx) = — [g'(dt = — \ag(r = 0. 


6 6 6 


La réalisation de cette égalité pour toutes les g exprime la véracité de (6). 
Nous pouvons transformer maintenant le second membre de (5). En 
omettant, pour abréger, les arguments des fonctions, on obtient 


PCONO) PL E[h RP ele 
E 0090) | - El 3° | OC AE 


afétes] se) [0] 2e) 


On s’est servi du fait qu’en vertu de (6) 


h'h h'h 
El #4 er] - (En EL'dt = 0 
| g | J 9 


q 


et que (cf. $ 16) Ee(L'’}}=n1(6). < 


*) Au $ 16 nous avons prouvé que cette égalité avait lieu pour fous les sous les conditions 
(R). Ici, il suffit qu'elle soit vérifiée pour presque tous les f. 


13—4195 
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Dans les propositions à venir nous exigerons partout que /.(x) satisfasse 
les conditions du théorème 1. 


THÉORÈME 2. Si la fonction h(f)= ho(t)= q(t})/1(t) est dérivable et à 
support borné, alors 


e 2 s J 
E(* — 6) >2(1 +) >1-K, (7) 


g@ \'F dt 
LS fl 0) ] OÈ 


REMARQUE I. Les inégalités des théorèmes 1 et 2 sont intégrales dans 
la mesure où elles se rapportent à des intégrales de E(8° -r)/. De ce point 
de vue, les inégalités du $ 16 peuvent être appelées locales. 

DÉMONSTRATION. Cette assertion résulte directement du théorème 1, 
puisque le second membre de (3) se transforme en J?/(nJ+H) pour 
h=q/I <Æ 

Nous voyons donc que la borne inférieure des valeurs possibles de 


E(6° —- 0)? pour les grands nr ne diffère que légèrement de la borne 2 = 


où 


qui est égale à la valeur de E(65 — 8)? pour l’estimateur R-effi 


cace 60. Ceci plaide pour l’utilisation des estimateurs efficaces, car ces der- 
niers font prendre à E(0° — 8)? presque sa valeur extrémale quelle que soit 
la fonction g. 
Lestimation (7) est inaméliorable comme le prouve l'exemple suivant. 
EXEMPLE 1. Soit XE,,1. On sait alors que /(8)=1. Supposons par 
ailleurs que le paramètre œ est choisi au hasard et que sa densité g(f), 
1€] — ©, of, est dérivable. Le dernier membre de (7) se transforme alors en 


(n+H)7!, où 
H = (ar. dt = El(n q(o)) F. 


L'estimateur bayésien æ«Q correspondant à la distribution a priori Q de den- 
sité q et minimisant E(œ” — œ)? est égal ici à (cf. $ 10) 


en JA CO dt [ea@exptrit — Pn/Ddt | 
 fhoGa [oGexptr - Pn/Ddt | 
frq(texp(—-n@ — 1)?/2) dt 


 faGexp(=nG = 97/2) | (8) 


$ 20) INÉGALITÉ INTÉGRALE DE RAO-CRAMER 195 


Il est immédiat de trouver la représentation asymptotique de ce rapport et 
de montrer que 


 _-, gg’ 1 ; 2_ 1 H 1 
— + , Er — — — < 
+ © ce) Re (+) 


Mais nous opterons pour une voie plus simple en supposant que 


U=— e”‘”2. Il est évident alors que H=1 et le dernier membre de 


(7) est 1/(n+1). Or, nous avons établi dans l'exemple 11.1 que 


1 
n +1 


E(ag — a) = 
Ce qui prouve que les inégalités (7) et (3) ne peuvent pas être améliorées. 


THÉORÈME 3. Si l'intervalle ]a — e, a+ el est contenu dans 9, alors pour 
tout estimateur 6° on a 


1 


max 9° tÿ > Tu bed. -Offas : _dJ'2 . 
1Eja-e, a+el EX Ve n max (ft) + +°e” 
1Ela-e, a+el 


DÉMONSTRATION. Utilisons l’inégalité 


a+e 


max E(9° - 1) > | E6° - aa 
tEja-e, a+el ae 


qui est valable pour toute densité g(f) nulle en dehors de Ja—e, a+ef. La 
proposition annoncée résulte du théorème 1 si l’on y pose 


k() = q() = cos A9, ral <e 


Alors 
8 — 9} > 1 , 
ED 2 Toi + [a aa 
où 
: ( * _2 cos LS sin LS € 
GO y 2 À N28 0 x x) y 
q() cos? *! 
J S 


13° 
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Signalons que dans la classe des densités qg(f) dérivables la fonctionnelle 
| 
| CHO)EZ 10 dt atteint son minimum pour q(t)=cos/(xt/2). 


1 

Le théorème 3 nous dit en particulier que l'intervalle des valeurs 0 pour 
lesquelles l’estimateur 9” est super-efficace ne peut être de longueur supé- 
rieure à O{1/Vn). 

3. Inégalités dans le cas où la fonction q(0)/1(0) n’est pas dérivable. Si 

la fonction Ao=g/7 ne satisfait pas les conditions du théorème 1, on a 
l’assertion utile suivante qui permet d’estimer le comportement asymptoti- 
que de E(09° — 6)? dans le cas général. 


THÉORÈME 4. Supposons qu'une suite de fonctions h.(f) dépendant 
d’un paramètre e> 0 est telle que chaque fonction h. vérifie les conditions 
du théorème 1 et 


1) RE) < ho(r), 


MUC: 0): 
2) H(e) = { 10 dt < ©. 
Dans ces conditions, pour tout e>0 ; 
E(0° -0) > (AO) 


nJ + H{(e) 


DÉMONSTRATION. Elle résulte directement du théorème 1 si l’on y pose 
h=h. 
Le théorème 4 admet l’important corollaire suivant. 


THÉORÈME S. Si une fonction q est Riemann-intégrable et J<, alors 
EG" - 8 > (1 + ô), 
OÙ ôn = 0(1) lorsque n°. 
DÉMONSTRATION. Posons 4(f)= min qg(ft+u), 
[uise 


_ Sat) sit >e, 
qu) = (o sinon, 


L(E) = max(e, {(t)), 


_ I q{v) 
h(t) = ns To) PS hot). 


lt —e 
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Il est évident que la fonction À, est à support borné et dérivable pour tout 
e>0. 
De la Riemann-intégrabilité de q(f) il s'ensuit que g.(f)Tq(#) presque par- 
tout pour e+0. Pour le prouver il suffit de s’assurer que 
b 


flat) — q(r)ldr10. (9) 


La Riemann-intégrabilité de gq(f) entraïne la convergence 
Zat2k5)25t fat) di, Za(k + 1)6)281[a(0 dr 
k 


lorsque 6-0. Donc, 
b 


(at) dt > Xa(2ke)2e = 
k 


- HOT + dk + Dote) + (0 dt 


Ce qui prouve (9) et avec elle la convergence q.(f)fq(r). 


. € LA 
En utilisant maintenant cette convergence, on trouve que 3 ? hot), 


(ao dr ” E (Er do _ 


L(C + v) 
=. | del 20 à = | 2 et g. 


- LL At) 
Par ailleurs, 
; | L( +6 LtG-d| * à ? 


H() < { COrAC dt = +. 


€ 


Nous pouvons appliquer maintenant le théorème 3. En posant 
e=e(n)=n"!, n—-, on trouve que e(n)—0 et 


, h() dt\” 
E(6 - 9 > OO = La + où). < 


4. Quelques corollaires. Critères de bayésienneté et de minimaximalité 
asymptotiques. L'une des principales conclusions que l’on puisse tirer au vu 
des résultats de ce paragraphe est en gros la suivante. S’il existe un estima- 
teur asymptotiquement R-efficace, aucun autre ne fournit asymptotique- 
ment le meilleur résultat « dans |” ensemble » (ou « en moyenne »). Nous 


198 THÉORIE DE L'ESTIMATION DES PARAMÈTRES INCONNUS (CH. 2 


utiliserons ce fait ultérieurement au $ 25. On exhibera des critères de bayé- 
sienneté asymptotique et de minimaximalité asymptotique résultant directe- 
ment des théorèmes 2 et S. 

DÉFINITION 1. On dit qu’un estimateur 81 est asymptotiquement R- 
bayésien si 


En(0i — 0)? = J + o(1) (10) 


lorsque 7-00. 

Ces estimateurs réalisent asymptotiquement la borne inférieure des 
erreurs quadratiques moyennes, définie dans les théorèmes 2 et 5. On aurait 
pu les appeler aussi estimateurs asymptotiquement R-efficaces « dans 
l'ensemble » (ou « en moyenne »). 

On rappelle (cf. 8 11) qu’un estimateur 6; est asymptotiquement bayé- 
sien (par rapport à une distribution Q) si pour tout autre estimateur 8”, on a 

lim. sup [En(8i — 0)? — En(0° — 0)] < 0. (11) 


fn 


COROLLAIRE 1. Si les conditions du théorème 1 sont remplies et si q{(t) 
est Riemann-intégrable, tout estimateur asymptotiquement R-bayésien est 
asymptotiquement bayésien. 


DÉMONSTRATION. Soit 01 un estimateur asymptotiquement R-bayésien. 
En vertu du théorème 5, pour. tout autre estimateur 8”, on a 


lim. inf En(9° — 0)? > J 


n° 


Ce qui combiné à (10) entraîne (11). < 

Il est clair aussi que s’il existe un estimateur asymptotiquement R- 
bayésien, tout autre estimateur asymptotiquement bayésien sera asymptoti- 
quement R-bayésien (comparer avec les remarques suivant le théorème 
16.3). 

Du théorème 5 il s'ensuit également le 


COROLLAIRE 2. Supposons que les conditions du théorème 1 sont rem- 
plies et que q{t) est Riemann-intégrable. Si 61 et 62 sont des estimateurs 
asymptotiquement R-bayésiens, ils sont asymptotiquement équivalents au 
sens suivant : 


En(01 — 02)? — 0, (01 — 02)Vn F 0, 


où la convergence en probabilité est comprise par rapport à la distribution 
conjointe de X et 8 dans 27 x 0. 
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DÉMONSTRATION. Elle est entièrement identique à celles des théorèmes 
8.2 et 16.4. On part de l’égalité (8.11) qui, en vertu du théorème 5, nous 
donne 


lim.sup En(0: — 62)? < 0. « 


Aux $$ 8 et 11 nous avons signalé que pour comparer des estimateurs, 
on pouvait aussi bien se servir des valeurs moyennes |a(E6 — t}dt que 
des valeurs maximales 


sup E{9° — 1}, Tr Ce. 
rer 


Pour T° on prend soit l’ensemble @ tout entier, soit sa partie qui contient 
préliminairement la valeur inconnue de 8. On rappelle qu’un estimateur 9° 
est minimax si pour tout autre estimateur 0° on a 


sup E(8° - P< < sup E(0° — rt}. 
Un estimateur 6; est asymptotiquement minimax si pour tout autre esti- 
mateur 0°,on a 
lim.sup. sup E{Vn(8: — 1)]? < liminf. sup E{Vn(6" — #2. 
no € 


no 


COROLLAIRE 3. Si la quantité d’information de Fisher I(0) existe, est 
continue et que pour tout intervalle Y' CO on ait 


lim.sup. sup E{Vn(@i — nf < < sup 27%), (12) 
alors 0: est asymptotiquement minimax. 


DÉMONSTRATION. Il suffit de montrer que pour tout estimateur 8”, on a 
lim.inf. Sup E{Vn(@" — 9]? > SUP 17 (0). (13) 


no 


Pour toute distribution Q sur l de densité g(f) dérivable par rapport à la 
mesure de Lebesgue, on a 


sup ElVn@" — nf >[Elvr@" - 900 dt. 


D’après le théorème 2, l’intégrale du second membre est >J/-—H/n pour 
tout estimateur 0”. Le premier membre de (13) est donc supérieur à 


J = (17 (0q(0) dt. 
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Mais g est une densité dérivable quelconque, et pour e > 0 on peut toujours 
la choisir, eu égard à la continuité de 77 ‘(r), telle que 


J > sup77 (t) = €. 
1er 


Ce qui prouve (13), puisque € est arbitraire. € 

Fermons ce numéro par l’importante remarque suivante : on peut cir- 
conscrire la recherche des estimateurs asymptotiquement optimaux à la 
classe Ro des estimateurs asymptotiquement sans biais, introduite au & 16. 
Ceci résulte des considérations suivantes. 

Nous avons déjà noté que le second membre de l’inégalité du théorème 
S était égal à J/n+o(1/n) et ne dépendait pas du biais (0). Par ailleurs, si 
l’on utilise l’inégalité de Rao-Cramer pour construire la borne inférieure de 
E(0° -0)°, on obtient 


, 2 
+2 gÿ > min(gol +2 OÙ } plar 
E(0 0) > min [ao] 710 + b“(b) | dt 
On démontre (comparer avec [41]) que ce minimum étendu à tous les 
biais b(0) est de la même forme J/n7n+0o(1/n) (moyennant certaines condi- 
tions sur la régularité de g(f) et Z(f)) et, chose essentielle pour nous, est 
atteint pour un biais b(8) tel que 


b'(t) = of) et b(r) = o(1/Vn) 


lorsque 717. 

La classe des estimateurs 9° doués de tels biais n’est autre que À (cf. 
$ 16). Si 0” Xo, la borne J/n+o(1/n) est inaccessible. Ainsi, dans l’approche 
asymptotique où les estimateurs asymptotiquement normaux sont compa- 
rés à l’aide des valeurs de E(0” — 8)? pour q(r) et (t) régulières, on peut se 
borner aux estimateurs de la classe K=Keæ, 2 N Ro (la classe Ke. 2 a été envi- 
sagée au $ 8), puisque les estimateurs étrangers à la classe Ko sont « inad- 
missibles » au sens indiqué. 

5. Cas vectoriel. Si 8€R“*, on peut établir des théorèmes analogues aux 
précédents et tirer les mêmes conclusions que pour le cas scalaire. 

En particulier, le théorème S, l’un des plus importants de ce paragraphe, 
devient 


d > J/n + o(1/n), 
où d’= dl, dj =E(6;-6:)(0;—6;), J= EI (6). 


Les raisonnements relatifs aux estimateurs bayésiens et minimax restent 
aussi en vigueur si l’on mesure l'erreur d'estimation par la fonction 


v(0") = Eo(0° — 8)7(8° — 08), 
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où Vest une matrice semi-définie positive. On devrait appeler bayésiens et 
minimax (ou asymptotiquement bayésiens et asymptotiquement minimax) 
les estimateurs dont les erreurs vérifient les inégalités correspondantes pour 
toute matrice semi-définie positive F. 


8 21. Distances de Kullback-Leibler, de Hellinger et du x? et leurs propriétés 


Le contenu de ce paragraphe est essentiel pour l’établissement des prin- 
cipaux résultats de la théorie asymptotique de l'estimation ainsi que des 
résultats du chapitre 3. 

1. Définitions et propriétés fondamentales des distances. Soient P et G 
deux distributions sur (2; 8.,) absolument continues par rapport à une 
mesure u. Posons 


dd _. dG 


et soit MP le support de la distribution P : N= {x : p(x)>0). 
DÉFINITION 1. On appelle distance de Kullback-Leibler entre les distri- 
butions P et G la quantité 


a, G) = (in 2 P(r) = (in LD D. 


NP NP 
En fait, o1(P, G) n’est pas une distance ou une métrique au sens coutu- 
mier, puisqu'elle n’est pas une fonction symétrique de P et de G. Nous ver- 
rons néanmoins que o1(P, G) caractérise pertinemment (du point de vue 
statistique) l'écart entre G et P. 
De l’inégalité In(1+ v)-v<0 et de la représentation 


«0.0 = -[[us (8 1) Pme 


il s'ensuit que toujours ç1(P, G)>0. Dans le lemme 6.1 nous avons établi 
que e1(P, G)=0 si seulement P =G. 

DÉFINITION 2. On appelle distance du x? entre les distributions P et G 
la quantité 


de 2 
2, G) = EG) = 90) TÉ CN (dx). 
NPUNG 


Cette distance est justiciable de presque toutes les remarques suivant la 
définition 1. L'origine de l'appellation « distance du x? » apparaîtra plus 
loin. 
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DÉFINITION 3. On appelle distance de Hellinger entre les distributions 
P et G la quantité 


e@, G) = (PE - Vat} ad. 
NPUNP 
La distance de Hellinger est une fonction symétrique de P et de G, 
quant à Vo:3(P, G) , elle possède toutes les propriétés d’une métrique (entre 
les fonctions Vp(x) et Vg(x) dans l’espace métrique L:(23 u)). Il est immé- 
diat de voir que | 


es(P, G) = 2(1 -[Vpg wd2))< 2. (1) 


Les trois distances introduites jouent un rôle essentiel dans les divers 
problèmes de statistique mathématique. Nous nous en assurerons dans une 
certaine mesure. 

Si l’on utilise ces distances pour caractériser le degré de proximité des 
distributions P et G lorsque le rapport p/£ est proche de 1, on constate 
qu’elles ont toutes le même comportement asymptotique à des facteurs mul- 
tiplicatifs constants près. En effet, le développement 

) 


In £ = in (1+ (£ _ 1)) = (£ -1) (€ 1) +o(|£ . 
P 2 P 
2 
e@, ©) = - [n£ pu = 3Â(E - 1) put = + e0@ 6) 


nous donne 


_— gYÿ 2 
e@, G= | CE an [o5-ver (1+ Je ) utds)= 450, G 


La dernière égalité entraîne aussi que o2(P, G)2> o:3(P, G). 
Par ailleurs, o:1(P, G)> o:(P, G). En effet, puisque In(1+x)<x, il vient 


COUDES) 


a1@, G) = - [in £ pat > - 2(| vor u(dx) — 1)= o:@, G) 


Dans la suite, nous étudierons le cas paramétrique et admettrons qu'est 
remplie la condition (4,). On se penchera sur les distances o;, i=1, 2, 3, 
entre les distributions P=P:, et G=Po, dans (2; 9.3, ainsi qu'entre les 
distributions empiriques respectives (qui seront désignées par P5%, et P3.) 
dans (27, 85). (Signalons que ces distances ont un sens pour toutes les 
distributions et ne sont aucunement liées à la nature des espaces.) Si 
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Npe, CNPo,, On peut écrire 


(Je Jo) 
e1(Po,, P:.) = [in fe fe.#(dx) = Eo,in fe(x1) , 
_ Üo, — fe) fo (x1) 2 
02(Pes Per) Le, (dx) = En (Rs FT — » : (2) 


ee Pa) = | ( - Ve ) a(dx) = Es ( e- 


Si la condition Nps, C Npo, n’est pas remplie, les distances ç2(Po,, Ps.) 
et e3(Pe,, Po.) seront strictement supérieures aux espérances mathémati- 
ques respectives dans (2). 

Parallèlement à (2) signalons l’importante égalité suivante qui résulte de 
(1) : 

Es, Vfo;Gu)/faGu) = [VP Ge nd) = 1 - 7 es(Pa, Po). (3) 


La proposition suivante établit un lien entre les distances o{Pe,, Poe.) et 
c(Pe,, P6.). 
THÉORÈME I. 
o1(P5,, P5;) on neç1(Pe,, Pe:), 


1 + ç2(P%,, P3,) = (1 + o2(Pe,, Pe:))”, (4) 


D 3 @0Pñ. PE) = (1-3 @Pe. Po). 


DÉMONSTRATION. Elle est presque évidente si l’on admet pour simpli- 
fier que MP, CNP, (le principe des raisonnements est le même, mais les 
calculs sont plus volumineux dans le cas général). En effet, on peut alors 
se servir des égalités (2). La première des relations (4) résulte directement 
du fait que 
Jota) in Je (x) 

J 8: (À) mi Je e(X) 


En vertu de (2) il vient par ailleurs 


1 + o2(Pe,, Po) = EoÜo.(x1)/fo(x1)), 
1 — o3(Pe,, Poe)/2 = Eo,Vfe,(u)/fo.(x1). 


In 
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Ces relations sont aussi valables pour les distances entre P4, et P3, (à con- 
dition de remplacer x, par X dans les seconds membres). Comme 


Jo:CX) \< TT [fatx) \° : JeCu) \7r 
(Sun) = E IT (es) = [EC ) |: 
on en déduit (4) pour æ=2 et æ=1/2. 
Nous laissons au lecteur le soin de prouver ce théorème dans le cas géné- 


ral (C'est-à-dire lorsque la condition Npe, CNPpo, n’est pas remplie). € 
Le théorème 1 entraîne le 


COROLLAIRE I. 
03(P5,, P5.) < ne3(Po,, Po). 


En effet, 1—8"<(1-—/B)n pour tout B>0. En posant B=1 4 03P:,, 
Ps,), on déduit de (4) que 


o3(P5,, 61) = 2(1 = B") < 2(1 E B}yn = no3(Pe,, Po). < 


2. Relation entre la distance de Hellinger et antres et la quantité d’infor- 
mation de Fisher. La distance de Hellinger est celle des trois distances intro- 
duites précédemment qui présentera le plus grand intérêt pour nous. Cepen- 
dant, les principales assertions (les théorèmes 2 et 3) et les démonstrations 
seront de même nature pour ces trois distances. Aussi pour alléger l'exposé 
nous bornerons-nous à l’étude de La distance de Hellinger que nous désigne- 
rons dorénavant par 


eo, Po) =[(Ve - Ve ) atdr). 


Posons 


r(6, 6) = o(Po,, Po). 


LEMME 1. Si fe(x) est continue par rapport à 6 pour [4]-presque toutes 
les valeurs de x et si 6: 62, alors 


r(8”, 97) r(G1, 62) 
CE LG L'ECTEE si 


Si la fonction Vfe(x) est dérivable Par rapport à 0 pour [L]-presque toutes 
les valeurs de x, alors 


se 9,0") I(6) 
lim.inf _ > 1 6 
ge [8-6"| ” 4 Si 
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En outre, s 


01, 0 
TT <: (ze + (02 — 0:1)y)ay. (7) 
0 


On admet de toute évidence que 0”, 8”, 81, 02 et 0 appartiennent à ©. 
DÉMONSTRATION. Pour vérifier (5), il suffit d’appliquer le lemme de 
Fatou et la continuité de /e(x) à la relation 


EmAnf —— r(6”, 97) fin. inf (AR ESS) u(dx). 


nt | 9° — T6 0" |? “ 9.0 


D'où l’on déduit (6), puisque l’intégrant du second membre est égal à 
(9)*/(fe) pour 81 =62= 0. 


Pour prouver (7), posons a=602 — 61 et mettons l'accroissement 
Vfe, — Vfe, sous la forme 
8, 1 
A | Je 0, +ay 
dt = d 
à 2) Vf Ji 0, +ay di 


L'inégalité de Cauchy-Bouniakovski nous donne 


1 
(Ve, L Vfo, Ÿ _ || Jo: + ay æ| < EG ou 


Jo, + oi +ay 


L'intégrant étant positif, nous pouvons intervertir l’ordre d'intégration dans 
les relations suivantes : 
1 1 


, 2 
TE #2 < 4| (| 2 dy) u(dx) = AC + ay)dy. 
æ 0 


Jo+æ 
0 


Ce qui prouve l'inégalité (7). < 
Posons r(A) =7(8, 0 + A). Le lemme 1 entraîne aussitôt le 


THÉORÈME 2. Si la fonction Vfo(x) est dérivable par rapport à 0 
pour {4]-presque toutes les valeurs de x et 1(0) est continue, alors il existe 


. r4) _ 1) 
. A 4 


REMARQUE 1. Cette assertion est valable aussi pour les distances o1 et 
02 si l’on pose É 


na) = À à @x(Po, Po+4), r(A) = ; o1(Pe, Po+a). 


(8) 
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La relation (6) se prouve dans ces conditions exactement comme dans 
le lemme 1. Quant à la démonstration de (8), elle peut impliquer des condi- 
tions subsidiaires de régularité (proches des conditions (R)) assurant la légi- 
tur'té du passage à la limite sous le signe d’intégration. 

Donc, les distances ç{Po, Po; 4), i=1, 2, 3, ont le même comportement 
asymptotique, et Z (8) caractérise la vitesse avec laquelle elles tendent vers 


0 lorsque A—+0 (en effet, 2 I(@) est la dérivée seconde de r{(v) au point 
v=0 ). 
Si l’on pose r (A) = o(P3+2, P3), on déduit des théorèmes 1 et 2 que 


| (M (A) ni(0) 
lim J ( = a e 
A—0 A? 4 


On a des relations identiques pour les distances o1 et oz. 

3. Existence de bornes uniformes pour r(A)/A°. L'existence de ces bornes 
nous permet d'obtenir dans la suite des estimateurs très utiles pour les 
moments du rapport de vraisemblance. 

Pour simplifier l’exposé ou pour éviter d’introduire des conditions plus 
lourdes encore, on admettra souvent dans la suite qu'est remplie la 
condition 

(A.) : l'ensemble © est compact. 

Du point de vue des applications, cette condition qui exprime que 
l'ensemble des paramètres est borné et fermé n’est généralement pas 
restrictive. 

Nous utiliserons aussi la condition (40) introduite au $ 6 et exprimant 
que fe, “fe, pour 01#02. Dans ce cas, r(81, 82)>0 pour 60: #02. 


THÉORÈME 3. Si les conditions (Ao) et (A) sont réunies et si 
0<1(8)<4h< © pour tous les 0€6, il existe une constante g>0 telle que 
pour tous les 601, 02€6 l'on ait 


[91-062 | 


DÉMONSTRATION. La majoration résulte directement de (7). Montrons 
maintenant que 


: 01, 02) 
inf "Or @) 2 > 0. (10) 
0: |601-02 | ? 


Si par absurde (10) n’est pas vraie, il existe une suite (0f”, 8$”) telle que 


0$7 — of | 
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lorsque 7—+. En vertu de la condition (4.), on peut admettre sans nuire 
à la généralité que 0%” 08,66, 8$ —68:€0. Si 6 62, alors (11) contredit (5), 
puisque r(601, 02) >0 d’après la condition (40). Si 81 =602=06, alors (11) con- 
tredit (6), puisque Z(8)>0. <« 

4. Cas vectoriel. Dans ce numéro on se propose d'établir des proposi- 
tions identiques à celles des n° 2 et 3 pour un paramètre vectoriel (le con- 
tenu du n° 1 n’est pas lié à la dimension de 8). Désignons par (x, 0) la fonc- 
tion vectorielle de composantes 


1 Ofe(x) 
9) = ——— - 
pi(x, 6) DC) — 5 — 


La dérivée de la fonction V/e(x) suivant le vecteur unité w={ur, . . ., ux) 
est alors égale à (V2) )’, w)=(grad VU) , = (px, 6), w). Dans ces 
notations la matrice de Fisher /(0) est égale à 
IG) = {7x 6)etx 6)p(dx). 
Désignons par || la norme euclidienne du vecteur u={(w1, ..., ux). 
Le lemme 1 admet la généralisation suivante au cas vectoriel. 


LEMME lA. La première assertion du lemme 1 (cf. (5)) reste entièrement 
en vigueur pour k> 1. 
Si la fonction V fe(x) est dérivable par rapport à 0 pour {y}-presque 


toutes les valeurs de x, 0-0, 0" =0"+w"ô, w"—+w, |[w" | = |w| =1, 
Ô—+0, alors 
lim. inf D CET LI LI > + wl@)uT. (12) 


Si en outre w est un vecteur unité colinéaire à 02-01, de sorte que 
02=01+aw, a= | 02-061 |, alors 
1 


re) < 7 lee + auy}o’dy. (13) 
[d1-81* 4 
0 


DÉMONSTRATION. La première assertion du lemme 1 n’est pas liée à la 
dimension. La deuxième résulte du lemme de Fatou et des relations 


(fe. — Vfo- Ÿ 


lim. inf Er > (lim. nr Hd = 


| 9’ E 9” 


- AC ®, a? u(d) = Loop 
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Pour prouver (13), on remarquera que 
a 1 
Vfe — Vfa = AC 01 + yw), w)dy = 3 Gt 01 + ayw), w)dy; 
0 


(1) 
1 


2 
r(@1, 02) = &| [es 01 + ayw), ox | (dx) < 


+ 4 


< sl px 01 + ayw), w)dyu(dx) = 


[ec 01 + ayw), w)u(dx)dy = 


1 


. 


2 
_ [ere + ayw) w/dy. € 
O0 


Posons comme précédemment r(A) =7(8, 0 + A). Le lemme 1A entraîne 
le 


THÉORÈME 2A. Si la fonction Vfe(x) est dérivable pour |y]-presque 
toutes les valeurs de x et la matrice I(0), continue, alors la limite 


lim Ce) = 2 ogju7 


5-0 Ô 


existe pour tout vecteur unité w. 
Comme dans le cas scalaire, le lemme 1A admet le corollaire suivant. 
THÉORÈME 3A. Si les conditions (Ao) et (Ac) sont remplies et si la 
matrice I(0) est définie positive dans 6, 4h = sup Tr/(0) < «, il existe alors 
0 
une constante g>0 telle que pour tous 61, 0:€0 


£< BCE Li < h. (14) 
6: 


DÉMONSTRATION. Désignons par A:(0) et A4(0) respectivement la plus 
petite et la plus grande valeur propre de la matrice /(8), de sorte que pour 
w | =1 


A1(0) < w1(6)wT < Ax(0). (15) 
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Par hypothèse, A1(8)>0 partout sur @. Comme (e, w)?< | e|?= È p?, 


il vient : ; 
Î(, (dx) = wI(@)uT < Tr (6) 
e 


et par suite, A&(0) < Tr/(0) < 4h. a (13) entraîne 


EE 12 1 [a + ayw)dy < 
= 
0 


Prouvons maintenant la deuxième inégalité de (14). Supposons qu'elle 
est fausse. Comme dans le théorème 3, il existe alors une suite (0, 0$), 
0 -9,€06, 8$ —0:€6, pour laquelle (11) est vraie. Si 81 02, ceci contredira 
(5). Si 01 =02=0, on peut sans nuire à la généralité admettre, eu égard à la 
compacité de la sphère | w | =1, que 897 = 89 +600, 60, [et] = 
= |w| =1. Mais dans ce cas, (11) contredira (12) et (15). <« 

S*, Relation entre les distances envisagées et les estimations. Considé- 
rons la distance de Kullback-Leibler entre une distribution P4 et une distri- 
bution G indépendante de 8 : 


a1(G, Po) = [in D G(&) - [intG(as) 


Seul le second terme 
d(Pe, G) = — Info(x)G(ax) 


dépend de 8. Rappelons par ailleurs qu’au $ 6 nous avons défini l'estimation 
du maximum de vraisemblance comme la valeur de 8 qui minimise d(P», 
P;). Si la distribution de x: est discrète et x est une mesure cardinale, 
l'expression 


dP; 
du 


a un sens, @1(Pr, Pe)=d(Po, P:)— d(P;, Ph) et par suite on peut admettre 
que l’estimation par le maximum de vraisemblance minimise la distance de 
Kullback-Leibler o1(P;, Pe) entre Ps et P;. Dans le cas général, cette inter- 
prétation ne peut être adoptée que conventionellement. 

Pour les distributions discrètes de x:1, on peut également envisager les 
distances e{P», P:) pour i=2, 3 et les estimations minimisant ces distances. 
Pour i=2 par exemple, on obtient 


o2(Pe, Pr) = Don CE 


P(dx) 


d(P}, P}) = - (in 


J e(a:) 0) 
Je e(ai) d 


14— 4195 
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où v; est le nombre des éléments de l'échantillon tombant en un point a: tel 
que fo(ai)=Pa({a})>0. Ceci est la statistique x? (cf. $$ 7, 8) et c'est pour 
cette raison que nous avons attribué ce nom à la distance o2. 

Etant donné que les distances o; possèdent des propriétés asymptotiques 
voisines, les estimations qui les minimisent seront, comme nous le verrons 
plus loin, asymptotiquement confondues. 


8 22* Inégalité aux différences de type Rao-Cramer 


Ce paragraphe se tient un peu à l’écart de l’exposé principal. Nous allons 
tenter de répondre au moins partiellement à la question de savoir ce qui se 
passe avec la borne inférieure admissible de E,(9° — 8)° dans le cas irrégulier, 
c'est-à-dire lorsque la fonction /e(x) n’est pas dérivable par rapport à 8 ou 
lorsque /(0) = «. 

Nous commencerons par un exemple indiquant que dans ces conditions 
le comportement des erreurs quadratiques moyennes des estimateurs (ou de 
leurs variances) peut être totalement différent de celui du second membre 
de l'inégalité de Rao-Cramer. 

EXEMPLE 1. Supposons que X E Uo, e. Les conditions (R) ne sont pas 
remplies puisque la fonction /4(x) est discontinue. On sait que la statistique 
S=max x; est complète et exhaustive (cf. exemple 14.3) pour cette famille. 
Considérons l’estimateur sans biais 8" =2x1. L'estimateur 8s=2Eo(x1 | S) 
sera alors efficace en vertu des résultats du $ 14. Calculons Es(xi | S). Puis- 
que P4(S<z)=(z/0)", ze[0, 6], la statistique S admet une densité égale à 
nz”" 7 !/0" sur [0, 8] et à 0 ailleurs. Pour déterminer la distribution condition- 
nelle P(B | s)=P:(x1€B | S=s) de la quantité x; sachant que S=s, on se ser- 
vira de la règle (10.2) : 


PeGuEdy, Seds 
P(dy|s) = Puedy|S = 5) = POE0) 5605) 


P,(SEds) 
Le numérateur est égal à 
. 2 
D. ee > sal pour Y<S, 
L- | 
P:(xEdy, Seeds) = Se. Er pour y=s, 
0 pour yY>s. 


D'où il vient que P(y | = 2087 pour O<y<s, P({s}|s)=1/n. 


$ 2] INÉGALITÉ AUX DIFFÉRENCES DE TYPE RAO-CRAMER 21] 


Donc, 
9 


Eo(x1 | S) =L — 


(4) 


S(r — 1) S _ n+ls 
2n nl 2n - 


On a 
0 
2 - 1 
Ve65 = Es(05) — 0° = [#( +1) Hd -8- 
0 
_{@+1Y _\yp_ © 
AUTEN) 1e _ nn+2) q) 
L'estimateur 65 étant efficace, pour tout estimateur sans biais 9”, on a 
. 0? 
> ———— . 
Vo > n(n + 2) @) 


Donc, pour les grands n l'erreur quadratique moyenne Ee(8s — 0)? sera 
de l’ordre de 1/n°. Du point de vue de la borne inférieure de l’inégalité de 
Rao-Cramer qui est de l’ordre de 1/n, cette précision est anormalement éle- 
vée ‘). On démontre que cest la précision avec laquelle on détermine 
n’importe lequel des points de discontinuité de /#(x) (interdits par les condi- 
tions (R)) au vu de l’échantillon. On a vu dans l’exemple 7.4 de l’estimation 
de la médiane que les points où la densité /4(x) était infinie pouvaient être 
déterminés avec une plus grande précision, de sorte que, en châtiant le lan- 
gage, on peut dire que plus la régularité est violée en un point, et plus la 
précision avec laquelle ce point est estimé au vu de l’échantillon sera grande. 
Si par exemple XE Po, où P: = Uno, +3 Lo, Ie est une distribution con- 
centrée au point 6, alors P4(Sx0)=2"" (S=max x), de sorte que la 
variance de 8° —6 pour 8° =S décroîtra exponentiellement lorsque nc. 

Peut-on dans ces conditions indiquer la borne inférieure des variançes 
des estimateurs ? On établhira plus bas une inégalité identique à celle de Rao- 
Cramer, qui permettra de déterminer ces bornes sous des conditions de 
régularité moins astreignantes que les conditions (R). 


*) Il existe des estimateurs de 8 dont la variance est de l'ordre de 1/n. Par exemple, pour 

2 
l’estimateur 8°” =2x, on a E9”=8 et ve” =< Vx = . ; 
n n 


14° 
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On admettra seulement qu’est remplie la condition (4,), bien que ceci 
ne soit pas essentiel (cf. remarque en fin du paragraphe). 

Désignons par Ay(0) l’accroissement de la fonction (8) sur l’intervalle 
]0, 0+A[, par Nf, le support de la distribution Ps dans 27 : N3,= 
= {x : f(x) 0), et posons N° = NF UNPs 4 à. 

THÉORÈME 1 (inégalité de Chapman-Robbins). Supposons que 0€0, 
0+A€O, a(0)=E+0". Alors pour tout AX0, on a 


Ve > (Aa(8))° _____(4a@)) 
7 MARGE CH") oP3+4 PT) 


où 02 est la distance du x°. Pour les estimateurs sans biais, il faut remplacer 
le numérateur par A°. 


(3) 


En vertu du théorème 21.1, le dénominateur de (3) est de la forme 


02(P6 + 2, P5) = (1+r{(A))"— 1, où 
2 
n(A) = QPo+a, Pe) = ARGN o. 


fx) 


Donc, plus la distance o2(Pe+2, Pe) est grande (à A fixe), et plus la 
borne inférieure de V8” est petite. 

Si Po+a est absolument continue par rapport à Pos, alors 
NhosaCNBe=N" et o2P54+4, P5) peut être mise sous la forme (cf. (21.2)) 


e2(P3+a, P:) _ Ee| Afe(x) |: 


fox) |” 
Afo(x:i) |? 

de façon analogue r>(A) = Ee fat) | : 

Si la distribution P4, A n’est pas absolument continue par rapport à P,, 
il existe un sous-ensemble de Nr, , A de Po+4-mesure strictement positive 
sur lequel fe(x)=0, de sorte que l’intégrale de (4) devient infinie et l’inégalité 
(3), triviale. Signalons de nouveau que l'expression Es[Afo(X)/fo(X)]7 com- 
prise comme une intégrale étendue à NP, est susceptible de rester finie. 

DÉMONSTRATION du théorème 1. De ce qui précède il s'ensuit que sans 
nuire à la généralité on peut admettre que Pe +4 est absolument continue 
par rapport à Poe, de sorte que N?,,,CNP,= AN". Comme fe(x) et fe + a(x) 
sont des densités dans 2”, il vient 


[AfeGL" (dx) = 0. 


(4) 


D'autre part, 
(8"Afo(x)u"(dx) = Aa(8). 
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D'où 
| (6° — a(B))Afo(x)}y"(dx) = Aa). (S) 
NT 


L'intégrant de (5) peut être représenté sur l’ensemble N°” sous la forme du 
produit 


6° - NE - D 


Vfe(x) 
En appliquant ensuite l’inégalité de Cauchy-Bouniakovski, on obtient 
2 e 2 n (A s(x)) n 
(Aa(6))* < | (8 — 0) fo(x)u" (dx) | —— (dx). 
JL JL Je(x) 


Dans la suite, conformément à la remarque faite ci-dessus, on se bornera, 
comme dans la démonstration du théorème 1, au cas où P:. 4 est absolu- 
ment continue par rapport à P, (autrement, l’inégalité (3) devient triviale). 


COROLLAIRE 1. Si sont remplies les conditions de régularité assurant 
l'existence (cf. remarque 21.1 suivant le théorème 21.2) de lim r{(A)/A?= 
A—0 


= (0), alors (2 @ÿ 
F a + 
V# > —n1® (6) 


où a(8)=lim.sup Aa) | 
A—0 A 


Pour déduire (6) à partir du théorème 1, il suffit de remarquer seulement 


Aa(6} 
fa 


que l’on peut choisir la suite A—0 telle que = — a;(0). € 


L'inégalité (6) est, de par sa forme, une sorte de généralisation de l’inéga- 
lité de Rao-Cramer (une généralisation à vrai dire fictive, puisque les condi- 
tions de régularité indiquées entraînent visiblement l'existence de a’(8)). 

Il est naturel d’appeler l’inégalité (3) inégalité aux différences contraire- 
ment à l'inégalité (6) que l’on pourrait appeler inégalité différen- 
tielle. 

Si donc r>(A) — Z(8)A? (ceci correspond au cas où f* est dérivable), l’iné- 
galité aux différences de Chapman-Robbins entraîne l'inégalité différen- 
tielle de Rao-Cramer. 

Mais si la fonction /: n’est pas dérivable, le comportement de r2(A) sera 
différent lorsque A0. 

Si par exemple la fonction fe est dérivable partout à l'exception d’un 
nombre fini de points de discontinuité de 8=@(x), dépendant de x, on aura 
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alors 
r(A) — ciA|. (7) 


Ceci s'établit le plus facilement sur l’exemple assez typique traité au 
début du paragraphe. 

Soit XE Uo. +. Pour que la condition de continuité absolue de P;, , 4 par 
rapport à Pa soit remplie, on admettra dans le cas où P4= Uo, que A<0, 
| A | <6. Alors 


SE = pour x€[0, 6 + A], 
Afe(x) = = pour x€]0 + A, 6], 

0 pour xé[0, 6], 

, ji 6+4 

__ [ (4/e(x) re à ; 
[ae = | otar] ea + 
0 9 8 
1 : A? HAT 
Jak = + * “0 


Le fait essentiel ici est l’existence d’un intervalle de longueur comparable à 
A sur lequel | Afe(x) | >c>0, où cest indépendant de A. Ceci assure l’ordre 
de petitesse (7) pour r2(A). 

En revenant à l’exemple envisagé, on remarque que pour les estimateurs 
sans biais du paramètre 60 


. A? 
VE > max —— 
2 ñn 
8 ff, 4 LA ,; ___4  _\_, 
(] 0(8 + A) 
Quel est l’ordre de petitesse du second membre de cette inégalité lorsque 


no ? En posant | A| =}6/n, on obtient 


2 2 
Ve” > Ÿ max 4 


2 Rd NE 
A A 
n n(n — }) 


Il est clair que l’expression sous le signe max est asymptotiquement équiva- 
lente à A= max y’/(e’— 1)æ0,65, de sorte que 
} 


2 
ve” > _ (h + o(i)). 
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Le second membre de cette inégalité est du même ordre de petitesse que 
celui de l’inégalité inaméliorable (2), mais le facteur multiplicatif constant 
de 0?/n? dans (2) est « meilleur » et est égal à 1. 

Parallèlement à (7) on peut avoir affaire à d’autres vitesses de conver- 
gence de r:(A) vers 0 lorsque A->0. On peut par exemple obtenir la relation 
rA) — CA", œ< 1, si fe(x)— © au voisinage d’une courbe 8 = 8(x) “const, ou 
encore la relation r2(A)—cA°, 1<aæ<2, si fe est continue par rapport à 6, 
n’est pas dérivable mais vérifie seulement la condition de Hôlder au voisi- 
nage d’une courbe 9 =@8(x) “const. Il est immédiat de voir que l’ordre de 
petitesse de 


A? 
NX —— 
a (1 + cA°)"- 1 


pour æ<2 sera défini par la valeur A=(y/cn)!"®, de sorte que 


2/a 
Vo" > = = max —— (I + o(1)). 


Dans le cas « régulier » où a =2, le maximum par rapport à y est atteint 
au point limite y=0 (A=0). 

Signalons en conclusion de ce paragraphe que les estimateurs de V6° 
peuvent être obtenus de façon analogue pour des distributions Pe et Po, a 
non absolument continues l’une par rapport à l’autre. A cet effet, dans (5) 
il faut multiplier et diviser l’intégrant par Vfo(x)+/fo+4(x) et non par 
V f(x) . La condition (4,) n’est pas non plus aussi essentielle, puisque les 
mesures Pe et Pe,a sont toujours absolument continues par rapport à 


3 Po+Po+a) 


$ 23. Inégalités auxiliaires pour le rapport de vraisemblance. 
Convergence des estimateurs du maximum de vraisemblance 


Aux $$ 12 à 16 nous avons examiné des problèmes liés à l’existence et 
à la détermination sous une forme explicite d’estimateurs efficaces et R- 
efficaces. Nous avons vu qu’ils n’existaient pas toujours et qu’il n’était possi- 
ble de les trouver que lorsque la fonction de vraisemblance était d’une 
forme spéciale ou lorsque l’on connaissait la forme explicite d’une statisti- 
que exhaustive complète (la première de ces conditions entraîne souvent la 
seconde (cf. $ 15)). 

Nous allons passer maintenant à la construction des estimateurs asymp- 
totiquement optimaux. Les conditions d’existence seront ici bien moins res- 
trictives. Les résultats correspondants reposeront essentiellement sur les 
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propriétés asymptotiques de la fonction 


_ Îo + u(X) _ | _ 
Z(u) = D exp{ZL(X, 0 + u) — L(X, 0)}, (1) 


où, comme précédemment, L(X, 8)= 2; (x, 0). Le nombre 8 de (1) sera 
ER | 


supposé en principe être fixe et représentera la vraie valeur du paramètre, 
c’est-à-dire une valeur telle que XEPe. Dans ce cas, Z(u) est une fonction 
des variables x et X et par suite sera avec la fonction de vraisemblance 
Je +.(X) une fonction aléatoire de u. La fonction Z{(u) sera appelée rapport 
de vraisemblance. Elle joue un rôle important en statistique mathématique. 
L'étude de ses propriétés constituera le principal objectif de ce paragraphe 
et du suivant. 

On verra que Z{(u) est voisine de 0 à l'extérieur d’un voisinage du point 
u=0. Au voisinage de ce point la fonction Z(u) se rapproche, dans un cer- 
tain sens, de la fonction de Dirac, plus exactement, Z(v/Vn) se rapproche 
asymptotiquement pour 7-—+ de la densité de la loi normale. 

Aux $$ 23 à 26 nous n’envisagerons que le cas scalaire. Le cas vectoriel 
sera étudié séparément au $ 28. 

La distance de Hellinger 


r(u) = Q(Po+u, Po) = ((Vfo+u(x) — Vfox) Y'utdx) 


entre les distributions Po+. et Po étudiée au $ 21 jouera un rôle important 
dans les estimations ultérieures. On rappelle que 


0 < r(u) = 21 —[Vfo+(x ex) Hdx)) < 2, 


de sorte que 


Es ES ä Dar CG Hd = 1-02, © 


EsZ lu) = (1 — r{u)/2}". (3) 


S'agissant de la famille paramétrique {P,} on admettra dans ce paragra- 
phe et dans les suivants qu’outre (A,) sont remplies les conditions (Ao) 
Jo(x) <fo.(x) pour 0: <062) et (A) (6 est un compact). Nous avons déjà 
signalé que la dernière condition était inessentielle pour les applications. 
Ceci est dû au fait que dans les problèmes pratiques on peut généralement 
indiquer, par des raisonnements a priori , les bornes des valeurs possibles 
de 8. Pour simplifier nous admettrons si besoin que 6 est convexe (en 
dimension un cela exprime que 6 ={a b], -æ<a<b<). 

On admettra en outre dans ce paragraphe que /a fonction Vfs est déri- 
vable pour {k]-presque toutes les valeurs de x et que la quantité d'informa- 
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tion de Fisher 


, 2 , 
GO dy = E (4%) ) 


110) = | Je(x) Je(x) 


est strictement positive et bornée dans 6. Sous ces conditions le théorème 
21.3 nous dit que pour toutes les valeurs admissibles de 0 et 9 + u (Cest-à-dire 
telles que 0€6, 8+u€O) la quantité r(u)= o(Po+u, Po) vérifie l'inégalité 


inf ED >g>0. (4) 


1. Inégalités fondamentales. Désignons pour simplifier p(u)= Z°/“(u) et 
admettons que toutes les conditions énumérées ci-dessus sont remplies. 


THÉORÈME 1. 
EoZ /2(u) <e”""/2, Egp(u) < e7 "4, 
(5) 


Des considérations du $ 21 il découle que pour les valeurs #=0o(1) on 
peut dans ces inégalités remplacer g par des valeurs aussi proches que l’on 
veut de /(6). 

DÉMONSTRATION. En vertu de (3), (4), on a 


EoZ'2(u) = (1 — r(u)/2)" < exp{- nr(u)/2} < exp{-ngu*/2). 
L'inégalité de Cauchy-Bouniakovski nous donne 
Esp(u) SIEoZ /{u)-EoZ(u)]"? = [EoZ' (0) < e "et, 
En se servant encore de l’inégalité de Cauchy-Bouniakovski et de Îa relation 


p'(u) = FLUX 6 + u)Z#u), 
on trouve 


Es|p'(u)| = - 


à Es L'(X, 0 + u)| Z'*(u)Z'"*(u) < 
< ; [E[L'(X 6 + u)PZ(u)-EoZ"/4{u)] /2< 


< à (Es [L'(X 8 + ul 2e". 
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THÉORÈME 2. Pour tous z n>1,ona 
Ps(sup Z(v/vVn) > e°) > ce ?7/46-"3/4 
U >u 


où c=2+3Vzxl/g, lb =sup 1(6) étant indépendant de 8. 
eco 


La démonstration du théorème passe par celle du 
LEMME 1. Pour tout x2>0 


je”*”’?dv £ V2r e7*”/2. 


x 


DÉMONSTRATION *). La fonction caractéristique de la variable aléatoire 
£E do. 1 est égale à Ee"*=e "2? et est définie sur le plan tout entier. En 
posant = — ix, on obtient Ee*=e"”?. D'où, grâce à l'inégalité de Tchéby- 
chev, on déduit 


P(E > x) = P(Ë > e)<e "Er = e "2. « 
DÉMONSTRATION du théorème 2. Estimons la fonction 
H(6) = Es sup p(v). 
v. >8 


Si vE[0 + 6, b], alors 
_ b- 
p(v — 8) = p(5) + | p'(u)du < p(8) + | |p'&)|du. 


ë ë 
Vu que le dernier membre ne dépend pas de v, il vient 


sup p(u) < pG) + | |p'&)ldu 
u>è 


H:G6) = Es sup plu) < Eep@) + | Eol p'(u)| du 
D'après le théorème 1 on en déduit que 


H,(6) <e”*"4 + 2 VA IG + u) e-"“"#/“qu. 


u»>ô 


*) Les inégalités suivantes L 
L_,-rn [ea <l,-?n 
x 
z 


que le lecteur établira sans peine en comparant les dérivées des fonctions envisagées (ces fonc- 
tions prennent les mêmes valeurs en x= æ) sont plus précises pour les grands x. 
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Le lemme 1 nous dit que 


H,(6) Se" 74 + 2 Vnk { e”"e""/iQqu < 
PEL 
- n262/4 3 - v?/2 - mi 3 
< e + 3 V2h/£ e du<e 4 l+5 rh ) 
v>ôVng/72 
Il est clair que la fonction 
H-(6) = sup p(u) 
uç—6 
sera justiciable de la même estimation. Donc, 
H() < H,(6) + H-(5) < (2 + 3Vxh/g)e-"2/4, 
Reste à se servir de l’inégalité de Tchébychev 
Ps(sup Z(t) > e°) = Pa(sup p(t) > e*”*) < H(6) e”*”*. <« 
DEL LEL 


2. Estimations de la distribution et des moments de l’estimateur du 


maximum de vraisemblance. Convergence de l’estimateur du maximum de 
vraisemblance. 


THÉORÈME 3. Il existe des valeurs c <, g> 0 telles que 
PVR — 6) >v) < ce” ”* (6) 
pour tous ve n>li. 
DÉMONSTRATION. Du théorème 2 il s’ensuit que 
Pa sup Z{(r) > 1) ce” "”*. 
ll >v/Vn 
Reste à appliquer la relation 
(14 —6| > 6) = {sup Z(1) > sup Z()} € {sup Z(1) > Z(0) = 1}(7) 
128 W>8 I >é 
pour ô=v/Vn. <Æ 
COROLLAIRE 1. Soit u, > une suite strictement croissante. Alors 
(8° — 6)Vn/un + 0. (8) 


Si les u, sont tels que pour tout œ>0 


De” %"<o, (9) 
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alors 
(@ — 6)Vn/un > 0. (10) 


Ces relations sont visiblement plus fortes que les relations traduisant 
respectivement la convergence (0° —0-2>0) et la convergence forte (0° — 


— 0 PR 0) de l'estimateur du maximum de vraisemblance. 


DÉMONSTRATION. La relation (8) résulte directement de (6) si l’on y 
pose vu =ôu,. La relation (10) découle aussi de (6), puisque la somme des 
seconds membres de (6) formera une série convergente sous la condi- 
tion (9). 

Par exemple, même une suite croissant aussi lentement que #, =In n véri- 
fie la condition (9), de sorte que *) 


(®” — O)Vn/in n — 0. 


P-s. 


COROLLAIRE 2. Il existe une valeur c, << © indépendante de n et de 6, 
telle que pour tout a<g/5 


Eo exp fatu‘}}<c, où u° = Vn(ê” — 6). (11) 


DÉMONSTRATION. Une intégration par parties nous donne 
Er = — (evaP(|E| zu) = 1 + 2afve*P(|E| >v)dv. 
O0 


(4) 


Donc, en vertu du théorème 3 


- -) 
Ese" < 1 + E [ve-r#2a0 Æ C1 < ©. 
0 


$S 24. Propriétés asymptotiques du rapport de vraisemblance 


Au paragraphe précédent nous avons établi une série d’inégalités pour 
Z(u). Trouvons maintenant la distribution limite de ces fonctions aléatoires. 
Ceci est possible si les conditions (R) du $ 16 sont remplies. Mais pour sim- 
plifier les raisonnements nous allons introduire des conditions supplémen- 
taires qui ne sont pas toujours liées au fond des choses mais qui rendent 
les démonstrations plus brèves et plus limpides. 

Nous désignerons les conditions introduites par le symbole (RR) pour 


*) Il résulte de la remarque 25.2 que la relation (10) est encore valable pour des suites crois- 
sant bien plus lentement. 
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spécifier que nous avons affaire à des conditions de régularité qui renfor- 
cent les conditions (R). 

CONDITIONS (RR) : 

1) Les conditions (A0), (Ac), (R) sont remplies. 

2) La fonction I(x, 8) est deux fois continüment dérivable par rapport 
à 6 pour [4]-presque toutes les valeurs de x. La fonction Fl"(x t)| est 
majorée par la fonction I(x) indépendante de t : | ["(x f)| <{(x), pour 
laquelle l'intégrale 


Elu) = [CO (dx) 


converge uniformément par rapport à tEO *). 


Par convergence uniforme de l’intégrale, on entend la convergence **) 
sup [  Æ(xfox)u(dx) —+ 0 
x:lG)>N 
pour N— 0. 
Dans la suite nous aurons besoin des deux propriétés suivantes qui résul- 
tent de (RR) : 
1) La légitimité de la double dérivation par rapport au paramètre sous 


le signe d'intégration dans l'égalité 
[COutdx) = 1, 
qui exprime que 
(étou(dx) = 0, [ftxutdx) = 0. (1) 
2) La convergence uniforme de l'intégrale 
16) = [U'(x 8) fetoutdx). 
(Cette propriété résulte de (R) et sera utilisée dans le $ 29.) 


*) La suite de l'exposé reste entièrement en vigueur si la condition d'existence d’un majo- 
rant est affaiblie de la manière suivante : le domaine © peut être recouvert d’un nombre fini 
de domaines O1, . . ., ©, de telle sorte que pour 866; la fonction | /”(x 8) | soit majorée par 
une fonction {y{x) indépendante de # : |/°(x 8) | </(x), pour laquelle l'intégrale 


Eelp(x:) = lot ftoatdx) 
converge uniformément par rapport à 0€6,, j=1,...,5s. 


**) Cette interprétation de la convergence uniforme est compatible avec celle du théorème 
1.5.4 qui portait sur la fonction /(x)= x. Dans le même temps ce n’est pas une convergence uni- 


forme de fete 8)n(dx) pour {x 8)= {(x}fe(x) lorsqu'on admet que 
sup [ vtx, 8xtdn) — 0 


° à 
pour N— 00. r'leu. OI>N 
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Dans le but d’alléger l’exposé nous avons reporté la démonstration de ces 
corollaires à l’Annexe VI. L'autre moyen de simplifier l’exposé est d’inclure 
les deux propriétés indiquées dans les conditions (RR) sans se soucier du 
fait qu’elles seront « redondantes » sous cette forme. 


Puisque 
nn ie SO pen n _ SU) _ (fé) \! 
“OMS Je(x) ” ARE fo(x) (Fe) ! 
la relation (1) peut être mise sous la forme 
Eo/'(x1, 6) = 0, Esl"(x1, 8) = — Eo(l'Gu, 8) = — 16). (2) 


Nous nous sommes déjà servis de la première de ces égalités. 

Signalons encore un corollaire des conditions (RR). Les conditions (RR) 
étant bien plus fortes que celles utilisées aux $$ 21 et 23, tous les théorèmes 
du $ 23 relatifs aux estimations pour la distribution de Sup Z(v/Vn) et à la 

vI=u 


convergence de l'estimateur du maximum de vraisemblance sont valables. 
LEMME 1. Si les conditions (RR) sont remplies, la fonction l" (x, 0) est 
continue « en moyenne » au sens suivant : 


Eowi(x) = [ui(x)fe(mu(dx) —+ 0 (3) 
lorsque A—0, où wA(x) est le module de continuité de l"(x, 0) : 


wA(x) = sup |/"(xX 0+u) — 1*(x 0) |. (4) 
066,0+u€60 


lui < A 


DÉMONSTRATION. En vertu du théorème de la convergence dominée, la 
relation (3) résulte de la continuité ordinaire, puisque dans ce cas wA(x) 0 
pour [x]-presque toutes les valeurs de x lorsque A0 et de plus | w4(x) | < 
L21(x). 

Posons 
L'(X, 8+v)-L'(X, 0) 


à + 1(0)|. 


yn(4, 0) = sup 
lui< 4 


LEMME 2. Si les conditions (RR) sont remplies et si 6, >0, n=1,2,..., 
est une suite convergeant vers 0, alors pour tout 0€6 et XEPo, on a 


Yn(ôn, 8) 77 0, Yn(ôn, 0) 7? 0. 


Dans ces relations on peut remplacer I(6) par 1(8°) et vice versa. 


DÉMONSTRATION. Prouvons tout d’abord la première proposition. 
Comme Ee/”(x1, 0) = — (0), L'”(X, 0)/n + —1(8), il suffit de s’assurer que 
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Yn(Ôn) Hé 0, où 


__. [L'X0+v)-L'(X 8 _ L'(X 9 
yn(A) = sup pe : | 
Mais 
mr) < sup LL"(X, 8+0)-L"(X, 01 ox) = 5520, 
bi<ô 71 er 


où w4(x) désigne le module de continuité de /”(x, 8) défini dans (4). Il est 
évident que pour tout A >0 fixe, on a 


EX) < WA(X), 
pour ñn assez grand. Par ailleurs, la loi forte des grands nombres nous donne 
WA(X) + Eowa(x) = wi. 
Le lemme 1 nous dit que w4—0 lorsque A—0. D'où il s'ensuit que 
SEA) + 0, (5) 


ce qui prouve la première proposition. De (5) et de la définition de la con- 
vergence presque sûre, il s'ensuit que, outre (S), 


Gé +100 72. 0 


pour toute suite de variables aléatoires Mnp+.0. Il reste à remarquer que 


L'(X, +v) - L'(X #) _ L'(X 6 £ Dsë-a(X), (6) 
lol < 8x nu de | 


et à appliquer le corollaire 23.1. La possibilité de substituer /(9°) à /(6) 
résulte également du corollaire 23.1 (et de la continuité de 7(8)). 

Nous pouvons désormais formuler les propositions fondamentales rela- 
tives au comportement asymptotique du rapport de vraisemblance Z(?). 
Posons 


Y(u) = In Z(u/Vn) = L(X, 8+u/Vn) — L(X, 0) 


et convenons de désigner par &(X, 0) (parfois avec d’autres indices) les suites 
de variables aléatoires convergeant presque sûrement vers 0 par rapport à 
Po. 


THÉORÈME I. Soient remplies les conditions (RR) et soit 5,>0 une 
suite quelconque convergeant vers 0. Alors pour | u/Vn| <ô, on a 


2 
Y(u) = bn — 5 IOM1 + e(X, 8, u)), (D) 
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| En(X, 0, u) | < En(X, 0) ;+ > 0, En = L'(X, 0)/vn 6 D, 0: 
Le point u° =(0" —6)Vn de maximum de Y{(u) est tel que 


. En 
u = 76) ( + &(X, 0)), (8) 
2 
2Y(u°) = 2ln Z(O  — 0) = à ( + &(X, 0)) & Hi. (9) 


Outre (7), on a la représentation 
Y(u) = Y(u°) - LENS 2 I@)(1 + en(X, 0, u)), (10) 


|'en(X, 0, u)| < er(X, 0). 
Dans toutes ces propositions on peut substituer I(0°) à I(6). 


De même que dans le lemme 2 on admet dans ce théorème que 
0+uvnee. Cette relation sera automatiquement satisfaite pour les grands 
n si 0 est un point intérieur de 6. 

REMARQUE 1. Il est important de remarquer que les variables aléatoires 
En et e(X, 0) figurant dans (7) sont indépendantes de #. Donc, la première 
proposition du théorème peut être mise sous la forme 


Yu) — uë, + Le I(6) 
SUP  _ ps. 0. 


PMELANCE u 
Si à est tel que 
De”"### < o, (1) 
le théorème 23.2 nous dit que 
sup Y(u) +? ee) 
lul > 8 nr 


pour |u| >ôvn. 
DÉMONSTRATION du théorème 1. Du lemme 2 on déduit pour | v| <ô: 


L'(X, 8+b) = L'(X, 0) — nul(6)(1 + &(X, 6, v)), 
|'en(X, 8, vu)| < &(X, 0). 
En intégrant par rapport à v entre O et u/Vn, on trouve 


2 
L(X, 0+u/Vn) — L(X, 0) = uL'(X, 6)/vn - + I(8)A + e(X, 8, u)), 


(12) 
|en(X, 0, u)| < e(X, 6). 
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On reconnaît visiblement un développement taylorien dans lequel L"(X, 
0)/n a été remplacée par /(0) et le reste admet une estimation uniforme. 
Puisque 


Lo = À (x 
bem LX 0 = 2e 0 


est une somme de variables aléatoires indépendantes équidistribuées de 
moyenne 0 et de variance /(8) (cf. (2)), il s'ensuit que £& do. «0 en vertu du 
théorème limite central. Ceci prouve la représentation (7). Revenons au 
lemme 2 pour établir (8). Ce lemme exprime qu’il existe un ensemble À, 
Pe(A)=1, tel que pour X.€A 


sin L'(X, 8+v)—-L'(X, 6) 


+ 1(0)1—0, n—0c. 13 
un . (6) n—+ co (13) 


Par ailleurs, d’après le corollaire 23.1, il existe une suite u,—c, u,/Vn= 
=-yh 0 (u, doit vérifier (23.9)) et un ensemble 2 P,(B)=1, tels que pour 
X€B et n—+00 


= (9 — 8) = o(yr). (14) 


Vu que la suite 6,0 de la relation (3) est arbitraire, cette relation sera, en 
vertu de (14), vérifiée au point u= v" pour X.EANB, Pe(ANB)= 1. En se rap- 
pelant que L'(X, 8+v°)=L'(X, 8”)=0, on trouve que 


L'(X, 6) 
n(0 —0) 
pour X-€ANB. Ceci exprime que £—/(0)u" =u"e{X, 0). Ce que nous 
voulions. 

En utilisant les mêmes arguments, on peut porter u=u" = u"Vn=(0" — 


— 0)Vn= _. (1+e(X, 0)) dans (12). On obtient 
tr 


1(6) 


ce qui prouve la première partie de la relation (9). La convergence de £//(8) 
vers la distribution x? à un degré de liberté résulte des théorèmes de conti- 
nuité puisque &,/VI(6) &%o, 1. 

La relation (10) se prouve exactement comme la relation (7) si l’on se sert 
de la deuxième proposition du lemme 2 pour trouver une représentation 
pour L(X, 0+uvn)— L(X, 0"). « 


I(8) — —+ 0 


L(X, 8) — L(X, 0) = (1 + e(X, 0)), 


REMARQUE 2. En termes de distributions la première proposition du théorème 1 peut être 
formulée comme suit 


Y(u) € + 1022. 10. (15) 


15—4195 
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Nous avons signalé plus haut que la deuxième condition (RR) (d'existence de /”(x, 8)) n'est 
pas toujours essentielle pour les propositions à prouver. On s'assure à l’aide des raisonnements 
suivants que cette condition n'est pas essentielle à la convergence de (15). La quantité 


Y(u) = L(x 8 + +) = L(X, 6) > [ (x 0 + +) (x, ] 


is] 


est une somme de variables aléatoires indépendantes équidistribuées. Donc, le théorème limite 
central appliqué à un schéma de séries (les termes dépendent de n et la vérification des condi- 
tions de Lindeberg est omise) nous dit que 


Yu) € Bain). 24m)» 
où 


a(u) = lim nEel/Gu, 0 + uvn) — Iu, 0)] = 


ao 


Jim ns ln 0) 2 jm 2 Pere Po) 


0 
no Jux) a—0 A? = MIOME 
(cf. théorème 21.2 et remarque 21.1). Par ailleurs, 


o(u) = lim nEsf{x, 0 + u/vn) — Hu, 0) = 


| = 2 
sie | ES A | fxutdx) = 


4-0 pa 


= [0 Ofaoetdx) = 10). 


On aurait obtenu le même résultat en calculant a{u) et (4) au moyen d’un développement 
en série de /(x, 0 + u/vn) limité aux deux premières dérivées. Mais nous avons vu que cela n'était 
pas obligatoire. 


Avant de fermer ce paragraphe tirons du théorème 1 un corollaire utile 
concernant le comportement des intégrales du rapport de vraisemblance. 


THÉORÈME 2. Supposons que les conditions (RR) sont remplies, que la 
fonction w (t) satisfait la condition 


[wi <oe", © < o, a = g/16 


(g > 0 est définie dans le $ 21) ef que q(t) est une fonction bornée continue 

en t=0. Supposons par ailleurs que II est une mesure sur (R, 8) telle que 

{e” au*/4rI(du)< ©. Dans ces conditions, si 0 est un point intérieur de © et 
EP:, alors 


J m(w(&° - u)q(6 + u/Vn)Z(u/vn)I(du) = 


1 . 
= ego) [wtu" — ue 277 Pride) + (X 8]. (9 
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En particulier, si IL est la mesure de Lebesgue, XI(du)= du, alors 


2x 


= 


e'MIONEw(n) + e(X, 8)), 


où 
E(X, 0) 5? 0, 7€, ro: 


La proposition (16) est tout à fait naturelle, puisque le facteur 
q(8 +u/Vn) est « presque constant » et la fonction Z(u/Vn)= e* se rappro- 
che, en vertu du théorème 1, de la densité de la loi normale à une constante 
multiplicative près. 

DÉMONSTRATION. Dans le but d’alléger l'écriture, on se bornera au cas 
où la mesure IT est la mesure de Lebesgue. Le passage au cas général 
n'apporte aucune complication. 

Estimons tout d’abord la partie de l’intégrale (16) étendue au domaine 

[u| >r. Désignons-la par J(r). Comme fe(X)/f5-(X)<1, en admettant 
pour simplifier que Z=Z(u”’/Vn)=e"®"), 1=0+u/Vn, on obtient 


ras) +20 < (AR) er) 
Jo (2) (x) vn 
Donc, l'inégalité de Cauchy-Bouniakovski, le théorème 23.1 et le corollaire 
23.1 nous donnent 


Eow(u° — u)Z=!Z(u/\n) < 
< [EwAVn(" — 1)EoZ!/(u/vn)]!/? < ce”"34, 


Puisque max g(f)< , de là et du lemme 23.1 on déduit que 
EoZ *'J(n) < ce”#"”#, 

En appliquant l'inégalité de Tchébychev, on trouve des estimations du même 
ordre pour Pa(Z ” ‘J(r)>6). Donc, si r=r, + de telle sorte que 

2e”"## <o, (7) 
alors pour y>r; on a ; 

Z7'JO) > 0. (18) 

Prenons r, = o(Vn) et considérons le reste V{(y)=J-J(y) de l'intégrale 
pour y=2r,. D’après le théorème 1 
Z7!VQr) = Z”' Î q(ô+u/Vn)w(u° -u)Z(u/Vn)du = 
lu] < 27n 

15+ 
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= | (6) + atu))}wtu" - u)x 
ju] < 2rn 


x ap{ - 3 & — u'}I(O)1 + e(X, 6, | du 


où |en(u)| <en0, | &(X, 8, u)| Sea(X, 8) +0 pour nc. Donc, pour 
établir ce théorème, il suffit, en vertu de (18), de s’assurer de la proximité 
des intégrales 


w(u° = 1) ap{ - Leu — u'PIE + eX, 0 D} du, 


lu] < 2rn 


E3 Ew(r) = [we ep [- Lu - d'} HO }du 


D'après (17) et le corollaire 23.1 il existe un ensemble À, Pa(4)=1, tel que 

| u° | <r pour X.€A quel que soit n=n(X.) assez grand. Comme {(6)>g, 
|u-u°|?>u?/2 pour |u| >2r, | u°| <rm, on a sur l’ensemble À (cf. 
lemme 23.1) 


w(u° — u) ap | - su — u' F1) } du < ce” 0, 


lu >2rn 
Il reste donc à estimer l’intégrale 
{ w(u°—u) ap{ - 3 &-u"Y EN +e(X, 0, D} = 


lu] < 2rn 
— exp { = ; (u— “ 10) 


X (1 + e&(X, 0, v + D} — ap{ 5 LC) 


du< (we) ap{ 5 v’1(0) X 


dv. 


Or cette intégrale converge vers 0 sur l’ensemble AB, où B={X> : en(X, 
0)—0}, Pe(B)=1. Ceci résulte de la convergence vers 0 de l’intégrant quel 
que soit v et du fait que cet intégrant est majoré par une fonction inté- 
grable. < 


$ 25. Propriétés des estimateurs du maximum de vraisemblance. 
Normalité asymptotique. Optimalité asymptotique 


Soit XE P, et soit 0” un estimateur du maximum de vraisemblance. Les 
résultats des deux précédents paragraphes nous permettent de décrire entiè- 
rement les propriétés asymptotiques de 8” lorsque la taille 7 de l’échantillon 
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croît indéfiniment. Nous établirons en outre l’un des résultats majeurs de 
ce chapitre, savoir que, si les conditions (RR) sont remplies, l’estimateur du 
maximum de vraisemblance possède toutes les propriétés d’optimalité 
asymptotique étudiées plus haut, c'est-à-dire est un estimateur à la fois 
asymptotiquement efficace, asymptotiquement bayésien (pour toute distri- 
bution a priori admettant une densité) et asymptotiquement minimax. 

Dans ce paragraphe on admettra tacitement la réalisation des conditions 
(RR). 

1. Normalité asymptotique de l’estimateur du maximum de vraisem- 
blance. 


THÉORÈME 1. L'estimateur Ô" est asymptotiquement normal et de plus 
la convergence 


u° = (9 — 6) n & Po, 17 ‘(0) (1) 
est réalisée simultanément pour les moments de tout ordre, c'est-à-dire 
qu'outre (1) pour tout k>0 on a 

Eo(u")" —+ En“, nEdo, r''0. (2) 


Bien plus, pour toute fonction continue w(t) telle que | w(r) | <e"’6.(cf. 
(23.4)), on a 


Eow(u") — Ew(n), n € do, rw: (3) 
DÉMONSTRATION. Le théorème 24.1 affirme que 
 _ : _ à 
u° = (Ô — 6)vn = Jo À + «4 9), (4) 


où &(X, 0), +0, E = L'(X, 8)/Vn& bo, x. Ce qui prouve (1). Les relations 
(2) et (3) résultent de (1) et du théorème de continuité pour les moments (cf. 
$ 1.5), puisqu’en vertu du corollaire 23.2 


°\2 
Eow’(u") < Eo ap[ie <c< ©. << 


REMARQUE 1. De (1) et (2) il s'ensuit que 0” appartient à la classe Ke, 2 
dans laquelle la convergence (8° — 8)Vn & bo, «9 a lieu en même temps que 
celle des moments d'ordre un et deux -: Es(9” —8)?—02(8). Comme déjà 
signalé au $ 8, dans cette classe, l’approche asymptotique de comparaison 
des estimateurs est confondue pratiquement avec l’approche en moyenne 
quadratique. 

REMARQUE 2. La relation (4) permet également de décrire exactement 
les « écarts maximaux » (0° —9)vn pour 7 +0. Plus exactement, on sait (cf. 
[17], [53]) que les sommes normalisées £, de variables aléatoires indépen- 
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dantes équidistribuées de moyenne nulle et de variance /(8) vérifient la loi 
du logarithme itéré qui dit que 


| a . ) - 
A LE 07/5 ur RE Me 


Comme dans (4) lim.sup e.(X, 0)=0 presque sûrement, il vient 


TO DES 


A titre de corollaires du théorème 2 établissons maintenant quelques 
propriétés de l’estimateur du maximum de vraisemblance, liées à l’optima- 
lité asymptotique. 

2. Efficacité asymptotique. Au $ 16 nous avons introduit la classe À des 
estimateurs asymptotiquement sans biais, Cest-à-dire des estimateurs 6° 
dont le biais b(0) = Eo0° — 0 est tel que 


b(8) = o(1/Vn), b'(0) = o(1). (S) 


Au $ 20 nous avons exhibé des considérations qui circonscrivaient les 
recherches des estimateurs asymptotiquement efficaces « dans l’ensemble » 
à la classe Ko. 


Etablissons maintenant le fait suivant. 


COROLLAIRE 1. 0°EKo. 


DÉMONSTRATION. La première des relations (5) résulte de (2) pour £=1. 
Pour prouver la deuxième, on remarquera que (cf. $ 16) 
1 + b'(0) = EoË L'(X, 8) = Eo(ô — 8)L'(X, 8) = 

2 


= E((Ô* — 6)Vnb) = E ia 


(1 + &(X, 0)), 


En(X, 0) +, 0. 


Si le théorème de continuité était valable ici pour les moments, on en dédui- 
rait la relation cherchée 1+b’(8)—1 ou, ce qui est équivalent, b’(0)—0. 
Pour établir ce théorème dans le cas envisagé, il suffit de s’assurer (cf. $ 1.5) 


à D Es — nb | #2 < c < «, (6) 
où c est indépendant de n. En se servant de l’inégalité de Hôülder 
Elënl"< (El£19"7ÆEln|19", 


p>0, g> 0, + 1, 


Le 
q 


Slt 
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pour r=3/2, p=4, qg=4/3, on trouve pour le premier membre de (6) l'esti- 
mation (Es[(0° — 0)Vn]°)!/#(E£2)"/* qui en vertu de (2) nous donne l’inégalité 
annoncée. € 

En raison de son importance le corollaire suivant sera énoncé sous 
forme de théorème. 


THÉORÈME 2. L'estimateur Ô" est asymptotiquement R-efficace. Il est de 
plus asymptotiquement efficace dans Ko. 


DÉMONSTRATION. Le fait que 6” est asymptotiquement R-efficace 
résulte directement de la définition 16.1 et de ce que 


1 + o(1) 
nÜ(0) 


L'efficacité asymptotique dans Ko découle du théorème 16.3. 

Le théorème 2 et les remarques suivant le théorème 16.3 expriment que 
si les conditions (RR) sont réalisées, tout estimateur asymptotiquement 
efficace dans Ào est asymptotiquement R-efficace. 

A noter que la restriction à Ro de l’ensemble des estimateurs envisagés 
n'est pas la seule restriction pour laquelle 0 devient asymptotiquement 
efficace. 

Indiquons une autre restriction liée cette fois-ci à la propriété pour 8 
d’être médiane asymptotique d’une distribution d’estimateurs asymptoti- 
quement normaux, Cest-à-dire à la propriété 


P:(9° > 6) —+ 1/2 (7) 


E:(0" — 8) = 


lorsque 70. 

Désignons par K° la classe des estimateurs 8° pour lesquels (7) est réali- 
sée uniformément par rapport à 8. La classe K° pourrait être appelée classe 
des estimateurs asymptotiquement centrés. 


THÉORÈME 3. L'estimateur 0" est de classe K° et est un estimateur 
asymptotiquement efficace dans la classe K°. 


Nous remettons la démonstration de ce théorème au $ 3.3. 

3. L'estimateur du maximum de vraisemblance est asymptotiquement 
bayésien. Dans ce numéro, partout où l’on admettra l'existence de la densité 
q(t) de la distribution a priori Q par rapport à la mesure de Lebesgue sur 
6 on admettra en plus tacitement que cette densité est Riemann-intégrable, 
de sorte que les conditions du théorème 20.5 seront remplies. 


THÉORÈME 4. L'estimateur Ô est asymptotiquement R-bayésien. Si Q 
est une distribution a priori de densité q(t) par rapport à la mesure de 
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Lebesgue, l'estimateur Ô” est aussi un estimateur asymptotiquement bayé- 
sien associé à la distribution Q. 


DÉMONSTRATION. Que #”° soit asymptotiquement R-bayésien résulte des 
relations 


lim EfVn(8” — 6)]? = lim EE:fVn(é — 6)}? = 


no 


= E lim Es{Vn(é — 0)j? = EJ7'(0) = J 


Le passage à la limite sous le signe de l’espérance mathématique est licite 
en vertu du théorème de la convergence dominée, puisque d’après le corol- 
laire 23.2 la quantité Es[Vn(0 — 8)]? est uniformément bornée par une cons- 
tante indépendante de n et de 8. 

La bayésienneté asymptotique découle du corollaire 20.1. 

Les remarques suivant le corollaire 20.1 et le théorème 4 entraînent que 
tout estimateur asymptotiquement bayésien est asymptotiquement 
R-bayésien. 

La proposition du théorème 4 peut être renforcée. Il s’avère que les esti- 
mateurs du maximum de vraisemblance sont « presque » confondus avec 
les estimateurs bayésiens pour toute densité a priori q. 


THÉORÈME S. 
En(8 — 60) —+ 0, (8Q — #")Vn - 0, 
où 0Q est un estimateur bayésien associé à la distribution Q, la convergence 


en probabilité est comprise par rapport à la distribution conjointe de X et 
de 0 sur 2"x0. 


Le théorème 5 découle directement du corollaire 20.2. Ce théorème est 
équivalent à ce que 
En(é — 80) —+ 0 
pour presque tous les f. 


On a la proposition plus forte. 


THÉORÈME 6. Soit 8 un point intérieur de 6 et soi: XE Po. Si q(t) est 
la densité d'une distribution a priori et si cette densité est continue et stricte- 
ment positive à l’intérieur de ©, alors 


Vn(8” — 60) + 0. 
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DÉMONSTRATION. Elle résulte du théorème 2 du paragraphe précédent. 
En effet 


o, - & = KP 
[a dt 


En effectuant le changement de variables :=0 +u/Vn et en divisant le 
numérateur et le dénominateur de cette expression par fe(X), on obtient 


Fr {Ge u")q(0 +u/Vn)Z(u/vVn)du 
LT  RO+2 ZA 


Utilisons maintenant le théorème 24.2 pour w(f)=1 et w(t)=1. Comme 
Ew(n)= En =0 dans le premier cas, on obtient 


6Q — À = en(X, 0)/Vn, en(X, 6) + 0. € 


4. Lestimateur du maximum de vraisemblance est asymptotiquement 
minimax. 


THÉORÈME 7. L'estimateur du maximum de vraisemblance est un esti- 
mateur asymptotiquement minimax. 


Ce théorème découle directement du corollaire 20.3 et de la proposition 
suivante. 
LEMME ll. 
lim. sup Eon(#” — 8)? = sup 77 (8), 
er oer 


no 0 


où T est un segment quelconque situé à l'intérieur de 6. 


Le lemme 1 résulte de la convergence uniforme en à 8 de l’expression (2). 
L'uniformité sera prouvée au & 29 (cf. n° 29.3). 
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Nous avons vu que les estimateurs les plus intéressants étaient les esti- 
mateurs efficaces, les estimateurs asymptotiquement efficaces et en particu- 
lier les estimateurs du maximum de vraisemblance. La recherche de la 
valeur exacte de l’estimateur du maximum de vraisemblance 4° est un pro- 
blème assez épineux. Ceci concerne surtout les distributions ne possédant 
pas de statistiques exhaustives de forme relativement simple. 

Par ailleurs, la recherche d’un estimateur asymptotiquement normal 6° 
n'apporte aucune complication. 
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Nous allons indiquer une méthode de construction d’un estimateur 6: 
asymptotiquement équivalent à un estimateur du maximum de vraisem- 
blance 0” (donc à un estimateur asymptotiquement efficace), qui est basée 
sur la méthode des approximations de Newton et utilise un estimateur 
asymptotiquement normal 8”. Posons 


U(1) = 1 - L'(X 1) -(L’(X ))°', 1e, 
Ut) = t + L'(X nn) - (ni) !, 10. 


THÉORÈME 1. Si les conditions (RR) sont remplies, XEP» et 0° est un 
estimateur asymptotiquement normal : 


(8° — 0)Vn € do, 0, 
alors l’estimateur 61 = U(0°) (ou 61 = U:(8”)) sera asymptotiquement équiva- 
lent à Ÿ”, c'est-à-dire que 
(01 — 9")vn 33 0. 


La démonstration de ce théorème repose sur le lemme suivant. 


LEMME ]l. Soient remplies les conditions (RR), XEP°o et 6, >0 une 
suite quelconque convergeant vers 0. Si 8, est tel que |8:-0 | <ô:, alors 


U(8:) — Ê = (8 — d"Jen(8n, 9, X), 
où 
En max | En(0n, 0, X | Fè 0. 
On : |0x — 0] S Ôx 
On obtiendrait la même proposition en remplaçant U par une fonction 
Ui. 


En d’autres termes, si l’on applique la méthode des approximations suc- 
cessives à d” et que l’on pose 05 =0n, 01 = U(60) (ou 81 = U:(6o)), alors 61 — 
— = 0(65— 0"), de sorte que l’approximation 61 est bien meilleure que 66. 

DÉMONSTRATION. Des considérations du $ 24 et de la continuité de L”, 
il s'ensuit (cf. par exemple lemme 24.i) que 


L'(X, 01) = (6n — É)L"(X, 8), -L'(X, 6) = n((@) + e(6n, 8, X)), 


où 6€[0, d ], max  |e:(8», 0, X| >> O pour toute suite 8,0. Par 
On : [On — 0] S 0x 


ailleurs, 


L'(X, 0:) = AU) + er), (6) + 6) + 77! = 1 + es, 
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où € et & jouissent de la même propriété que &. Donc, 
U(6:) — Ÿ = 04 — Ÿ — L'(X, XL "(X, 6)) 7! = 


= 0 — À — (04 — 0°) + en) = (04 — À”) en. 


La démonstration est la même pour la fonction Ui. 
DÉMONSTRATION du théorème 1. Choisissons un &,-+0 tel que On Vn— co 
et mettons (01 —0")Vn sous la forme 


(U(6°) — d”)Vn = Vn(8° — d")en(8", 8, X)o-0<5. + Fm 


où r, #0 uniquement sur l’ensemble B,= {X : | 9° —-8 | >ô,} et, en vertu du 
lemme 1, 


En = max &(f, 0, X) 7 0. 
lt 01 Sê, 


Vu que d’autre part P,(B,)—0, on en déduit que 
[91 — d|vn < vn|9° — 0e + vn|8 - 01e + rm 75 0. < 


Le théorème 1 montre que la méthode des approximations successives 
nous conduit en un pas, à partir de toute estimation asymptotiquement nor- 
male, dans un o(1/Vn}-voisinage de 6”. 

Si l’on exige l'existence des dérivées troisièmes continues /” (x, 8), on peut partir de points 
plus éloignés de 8, disons d’une quantité o(n” ‘‘*). Dans ce cas, comme dans le théorème 1, 
en un pas on se trouve dans un o(1/Vn)-voisinage de 0°). En effet 
« — 6°) 


L'(X, 1) = (t — Ô°)L'(X, 6°) + S 


L®(X, 8°) = 


= (t — Ô°)L'(X, 1) + Z « — OP L® — (X, 6"), 
où 8’ et 8” sont compris entre f et 8°. Donc 
U(8., — Ô® = 0, — à — L'(X, 8,XL”(X, 0,))7! = 


LP 


= 3 On — 6P(() + ee). Vn(U(,) — Ë°) 3: 0, 
si (8 — 0| = on"). < 


EXEMPLE 1. Classification des particules. Considérons un émetteur de 
particules de deux types: des particules A avec la probabilité p et des parti- 
cules B avec la probabilité 1 — p. L'énergie des particules est aléatoire et 
admet une densité f(x) pour les particules A et une densité f(x) pour les 
particules B. Les fonctions f(x) sont connues. On a enregistré nr particules 
d'énergies respectives x1, ..., x. On demande la probabilité p. 

La fonction de vraisemblance vaut ici 


0 = IL GG) + ( - PAG), 


236 THÉORIE DE L'ESTIMATION DES PARAMÈTRES INCONNUS (CH. 2 


donc, n 


; : fix) — f(x) 
L'En= 2 iQ) + Ü - PA) a 


Nous voyons que la recherche d’un estimateur du maximum de vraisem- 
blance p* nous conduit à une équation L’ = 0 de degré ñn — 1 en p dont 
la résolution est très compliquée pour les grands n. Utilisons le théorème 
1. A cet effet nous aurons besoin d’un estimateur asymptotiquement nor- 


mal quelconque p*. Supposons que | — F}/dx < ©, où Fix) = 
_ Jfit)dt, et considérons l’approche suivante. Définissons p* comme la 
valeur minimisant 

[ŒA0x) — F@) dx, F(x) = pi) + ( — p)R(x). (2) 
En égalant à 0 la dérivée de (2), on obtient ((ŒF? — FF — F2)dx = 0, 
(Œ* - PF — F)dx 


Fe |: — FR} dx 
Il est aisé de voir que Ep* = p et que 
F3 — PNYn( — F 
PR Le Embout 6) 


(Œ — FR) dx 


Des résultats des $$ 1.6 à 1.8 il s'ensuit que p* est un estimateur asymptoti- 
quement normal et que la distribution limite (3) est confondue avec la 
distribution 


[w(FO)F: — F:)dx 
(Gi — F2)dx 
Donc, d’après le théorème 1, l’estimateur 
pf = p* — L'(X, p*XL"(X p*)) ?, 
où L’ est définie dans (1) et 
L" = 29. Ait) — f(x) 
@fG) + (À — PAG) | 
sera asymptotiquement équivalent à l’estimateur du maximum de vraisem- 
blance p*. Le paramètre de dispersion de pf sera défini par la quantité 
d’information ; 
IC) = 1x) — f2(x)) 
PfQ) + ( — p)f20X) 


et sera strictement inférieur à celui de p*. 
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EXEMPLE 2. Nous proposons au lecteur de trouver de façon analogue 
une approximation pour l’estimateur du maximum de vraisemblance du 
paramètre æ de la distribution de Cauchy K,. de densité 


: | 
HG 0) 


Pour estimateur asymptotiquement normal « préliminaire » on peut pren- 
dre la médiane empirique £* (cf. $ 2 ou $$ 1.3, 1.8. L’estimateur œ*° = x est 
exclu, car Eca* n'existe pas). L'estimateur 


af = £* — L'(X, SLA)", 


où 


L'(X, a) 


Xj — 
— 2 ——————, 
>; l + (x — æ)° 


; _ 1 — (x — a) 
Leo = 2 2 Ge 


sera asymptotiquement équivalent à l’estimateur du maximum de vraisem- 
blance &*. Comme 


D [ Ki) __4 x _I 
An ÉSCEE | Ta 7 2 


a, 1\X L 
les paramètres de dispersion de ÿ* et de a seront respectivement égaux à (cf. 


$ 2) 


LI 


JG “3: [7 4(@) = 2, 5 > V2. 


EXEMPLE 3. Chaque être humain est de l’un des quatre groupes san- 
guins suivants : 0 (zéro), À, B, AB. La transmission du groupe sanguin est 
commandée par trois gènes : À, B et 0, le gène 0 étant dominé par les gènes 
A et B. Si donc p, get r = 1 — p — q représentent les probabilités d’appari- 
tion des gènes À, B et O0, les probabilités d'apparition des groupes sanguins 
seront égales aux quantités suivantes : 


Tableau 1 


238 THÉORIE DE L’ESTIMATION DES PARAMÈTRES INCONNUS [CH. 2 


Soient v1, v2, v3, va les fréquences d’apparition des groupes respectifs 
dans une population de 7 individus. Comment calculer l’estimation du 
maximum de vraisemblance pour p et g? Les probabilités p;(0), 8 = (p, q), 
d'apparition du i-ième groupe sanguin et leurs dérivées partielles par rap- 
port à p et à q sont représentées dans le tableau 2. 

Tableau 2 


dp:1(8) 


4 
Pour le logarithme de la fonction de vraisemblance L(X, 8) = 2; v; Inpi(6) 
i=l 


on obtient donc 


D 
ôp Pi Ôp r p@ + 2r) g +2r p° 
(4) 
OL vi OP 2ri 2r2 2rv3 Va 
— ——— me =  ——— = ————————— ———— + —, 
0q 2+ OP r p+tà * aq+2 q 


En égalant ces dérivées à zéro, on obtient pour 0* un système de deux équa- 
tions du quatrième degré. La résolution de ce système soulève de grosses dif- 
ficultés techniques. Aussi est-il plus simple d'appliquer le théorème 1. A cet 
effet, on remarquera que 


Mm=r7, PL+pP2=(p+r), pi + ps = (q + r}. (5) 


Les estimations efficaces de p; sont égales à p*= »;/n. En les portant dans 
(S) et en résolvant les équations obtenues, on trouve 


p* = Vpf + p#f - Vpf, g* = Vpf + pf -— Vpf. 


Comme p'est une estimation asymptotiquement normale de p; (autrement 
dit, (p*— pi)Vn € dopu-p), il en sera de même de p* et g* pour p et q 
en vertu des théorèmes du $& 1.5. 
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Pour appliquer le théorème 1, il reste à calculer la matrice (L”(X, 
8*))7 * ou la matrice (7/(8*))7!, 0* = (p*, q*). 
Citons un exemple d’échantillon X obtenu par sondage d’une popula- 
tion de 7 = 353 individus. 
Tableau 3 


Ce tableau nous donne p* = 0,241, g* = 0,167, r* = 1 — p* — qg* = 0,592. 
Le tableau 2 nous donne pour les éléments de la matrice /(8), 4 = 0", 


S oi Das 47, _ 4, 2 _ 9970 
Pi P SH 


pit) p@ + 2r) q + 2r 

dpi(8) ) | 4p 4 2p 

2 ( Ôp Pi(6) p+2r  g(g + 2r) q 
0pi(0) 
. 9pi@) ge T5 5 
0q Pi(8) p+2r q + 2r 
D'où |/(0*)| = 130,512, 
- 0,105  —0,020 
l/a% 2 , ’ 
17°) — 0,020 0,076| 


En se servant des formules de _. et = (cf. (4)), on trouve 


L'(0*, X) = (25,443, 34,161), (6) 
de sorte que pour la deuxième approximation de 6f on a 
6? = 8% + © L'(0*, AIT 1(0*) = (0,246, 0,173). (7) 


Ceci combiné au tableau 3 nous donne les estimations consignées dans le 
tableau 3A. 
Tableau 3A 


p(8°) 
Pi(6}) 
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L'estimation 0f ne sera pas modifiée par les itérations suivantes de la forme 
(7) (dans le cadre de la précision requise), puisque 


L'(0?, À) = (—0,076, —0,167) 


(comparer avec (6)), de sorte que la troisième approximation de 6* et les sui- 
vantes seront confondues avec Of. 


$ 27* Propriétés des estimateurs du maximum de vraisemblance 
en l’absence des conditions de régularité. Convergence 


Ce paragraphe, de même que le $ 22, se tient à l’écart de l’exposé princi- 
pal et traite le cas irrégulier. On se bornera à la démonstration de la conver- 
gence forte de l’estimateur du maximum de vraisemblance sous des condi- 
tions très faibles sur f(x) et sans les conditions (RR) ou (R). Les propriétés 
de l’estimateur du maximum de vraisemblance et du rapport de vraisem- 
blance dans le cas irrégulier font l’objet d’un examen plus détaillé dans [42]. 

Dans ce paragraphe on admettra que sont réalisées les conditions (4,), 
(A) et (4o) et l’on désignera la distance de Kullback-Leibler ç:1(Pe, P:) par 


fe(x) 


fr) : fe(x)u(dx). 


o(0, rt) = [in 


On sait que si la condition (40) est remplie, (8, rt) > 0 pour t # 6. 

Il est évident que la condition (40) est nécessaire à la convergence de 
l’estimateur du maximum de vraisemblance, c’est-à-dire à la convergence 
6* > 0. Si par exemple 0(8, to) = 0 pour & # 6, les points @ et fo seront 
tout simplement indiscernables ; les distributions P4 et P,, seront confon- 
dues et, si XŸ € Ps ou X € P., l’estimateur 0* ne peut être convergent quel 
que soit l’estimateur vers lequel il tend. 

Il existe une variante uniforme (40) de la condition (40) (8 étant fixe) : 

(Ao) Pour tout à = e(ô) > 0 


inf o(8,1)>Ee€ 
1: -0]36 
pour un & > 0. 


Il est évident que (Ao) est une conséquence de (40), (Ac) et de la continuité 
de ç(6, fr). Donc, la condition (40) est aussi nécessaire. 
Resserrons maintenant la condition (40). Posons 


fr (x) = sup fr+u(x). 
ul GA 
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(AS) Pour tout ô > 0 il existe un À = A(ô) > 0 tel que pour tous les 
tt —- 0, > ô,etune > 0,ona 


(in ELa 2)  foC)n(dx) < —€. (1) 


Cette condition est suffisante pour la convergence forte de l’estimateur du 
maximum de vraisemblance. Elle est proche de la condition (40) et de ce point 
de vue est proche d’une condition nécessaire. Mais la condition (40) est insuf- 
fisante à elle seule à la convergence de l’estimateur du maximum de 
vraisemblance (cf. remarque 1). 


THÉORÈME 1. Si la condition (AS) est remplie, l'estimateur du maxi- 
mum de vraisemblance Ô* est fortement convergent. 


DÉMONSTRATION. L'estimation du maximum de vraisemblance ô* est un 
point { de maximum de la fonction yÿ{r, 8, P?), où 


fr(x) 

Ÿ(6, 1, P) [in PACS) P(dx). 
Comme (6, Ô*, P*) > (6, 0, P*) = 0, pour prouver le théorème.il suffit 
de s’assurer que 

lim.sup sup ÿ(6, 1, P#) < —e 

ho |r-6|>6 
Pe-presque sûrement pour un certain € > 0. (Ceci exprimera que |0* — 
— 0| < à pour presque tous les XX € P4 à partir d’un certain nr = n(Xx) < 
< ©.) Fixons à et supposons que A vérifie la condition (1). Recouvrons 
l’ensemble 6 NX [8 — 6, 8 + 6] avec les intervalles A = {fr : |t — til < 
< A},Æk = 1,...,N < , où fx € 6, tx [0 — 6, 8 + 6]. La loi forte 
des grands nombres nous dit alors que 
SUP RACE t, P?) < max.supyÿ(6, t, PA) < 

» K  1EA: 


le 0 
S f@) CORDES 
< Es n 4 : en ji fo(xi) P-5 maxEeln fe(x1) 


it = 


REMARQUE 1. Comme déjà signalé, la seule condition (40) est insuffisante 
à la convergence de 6*. Pour nous en assurer considérons l’exemple suivant. 
Soient 6 = [0, 1], Po = Uos::0o pour O0 < 0 < 1/2 et pour 8 = 
= ]. Si 0 € ]1/2, If, la distribution Pe admet la densité fe(x) = 1/8 pour 
xE]1 — 8, 1[. Supposons maintenant que X € Pe = Uo:. La condition (40) 
est alors remplie, puisque 0(0, f) = — « pour t # 0. Dans le même temps il 
estimmédiat de voir que f(X) > 1 pour t€]1 — xx, I[etqueË* = 1 — x) 5% 1. 
16—4195 
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La condition (45) peut être représentée sous une forme équivalente légère- 
ment différente. Désignons f7 (x) = lim.sup/.(x). 
ut! 


THÉORÈME 2. La condition (A5) est équivalente à la réalisation simul- 
tanée des deux conditions suivantes : 
(45). Pour tous les 1 # 0 


(in FE fabou(d < 0. 


(J). Pour tous les t et un A > 0 


: fe(x)u(dx) < ©. 


La condition (J), de même d’ailleurs que les conditions (48) et (45), 
exprime que les parties strictement positives des intégrants sont intégrables. 
De telles fonctions seront dites intégrables supérieurement. 


En vertu de (4.) la condition (J) est en fait équivalente à la majorabilité 
de l’intégrale 


[in LE. onto < >, Q) 
où f°(x) = sup/(x), 


DÉMONSTRATION du théorème 2. Il est évident que la condition (46) 
entraîne (46) et (J). Supposons maintenant que sont remplies les conditions 
(A8) et (J). Si l’on admet que (46) est mise en défaut, on peut exhiber des 
suites {x —+ { € ©, Ax —+ 0, €x —+ O0 telles que 


[in nf. + fe(x)u(dx) > — Ex. 


L'intégrant est majoré en vertu de la condition (J) par une fonction intégra- 
ble supérieurement, donc d’après le lemme de Fatou 


| f(x) Jr (x) 
lim.sup [in TG) fo(x)u(dx) < [in 10) fo(x)u(dx) < 0. 


Cette contradiction prouve le théorème. < 

Indiquons maintenant des conditions suffisantes plus simples assurant 
la réalisation de (46) et de (J), donc la convergence forte de l’estimateur du 
maximum de vraisemblance. 

DÉFINITION 1. On dira que /.(x) est de classe Do si pour tout t € GO il 
existe un ensemble C: € 8, Po(Cr) = 1, sur lequel f(x) est continue par 
rapport à ? : f(x) —+ f(x) pour tk — 1, x € Ci. 
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Outre les fonctions /.:(x) continues par rapport à t{ sur un ensemble C, 
Pe(C) = 1, indépendant de f, sont de classe D, les fonctions dont les déri- 
vées /.(x) possèdent dans le plan (f, x) des lignes de discontinuité isolées ne 
présentant pas de tronçons parallèles à l’axe des x. Telles sont notamment 
les fonctions dont les dérivées f(x) présentent en tant que fonctions de x 
des discontinuités isolées aux points xf'”, x{?), ..., dépendant continôment 
de t. 


THÉORÈME 3. Si fr(x) € Do et si est réalisée la condition (J), alors il en 
est de même de la condition (A8) et par suite l'estimateur du maximum de 
vraisemblance 0* est fortement convergent. 

DÉMONSTRATION. Si f(x) € Do, alors fs (x) = f:(x) pour x € Cet par suite 


(in fr (x) 


x)u(dx) = — (0,1) < 0. SAS 
TG OH = — 06,1 
COROLLAIRE 1. Si f(x) € D, est bornée et l'intégrale 
He()Info(x)u(dx) (6) 
finie, l'estimateur du maximum de vraisemblance est fortement convergent. 
Le corollaire 1 résulte directement du théorème 3, puisque la majorabi- 
lité de f:(x) et la finitude de l’intégrale (3) entraînent la condition (J). 
COROLLAIRE 2. Si 
(A) = [ sup Lf +00) — fiQltdx) —+ 0 (4) 


lorsque À — 0, l'estimateur du maximum de vraisemblance est fortement 
convergent. 


DÉMONSTRATION. Appliquons le théorème 3. Il est évident que /.(x) est 
de classe Do, puisque la relation (4) ne peut être réalisée que dans le cas où 
fr+u(x) — f(x) lorsque u — 0 pour [4]-presque toutes les valeurs de x. 


D'autre part, 
(fr Hu(dx) < ea) + [tdx) = (A) + 1, 
et la condition (4) traduit également l’intégrabilité de f? (x). Vu que 


fr © FO | : Fe 
n TG < œ 1, on en déduit que l'intégrale de la condition (J) est 


16° 


244 THÉORIE DE L'ESTIMATION DES PARAMÊTRES INCONNUS [CH. 2 


inférieure à 
(fr Œuldx) — 1 < (4). < 


Au lieu de (4) on aurait pu exiger la convergence vers 0 de la quantité 
ei(A) = | sup QD — VF » nd, 
u|<Aa 


puisque w{(A) peut être majorée à l’aide de w1(A) comme suit 
p(A) < | sup INfr+u(x) — Vfi(x) A Nfr+u(x) + VfiQ0) lu(dx) < 


1/2 


< ef sun 0 - Ve + aie ya) < 
< Pei(Aer(A + 47 


COROLLAIRE 3. Si f(x) est dérivable par rapport à t pour [u]-presque 
toutes les valeurs de x et si 


(LGIp(dx) < © < ©, (S) 


l'estimateur du maximum de vraisemblance Ô* est fortement convergent. La 
condition (5) est toujours remplie si la quantité d'information de Fisher I(t) 
est bornée. 


Nous sommes arrivés au résultat que nous aurions pu obtenir en appli- 
quant le théorème 23.2. Le procédé de démonstration de ce dernier (cf. $$ 
21, 23) montre que la majorabilité de 7(f) ou de (5) n’est pas essentielle pour 
le corollaire 3 si la distance de Hellinger 03(Pe, Pe +4) est uniformément 
différente de zéro pour |A] > à > 0. 

DÉMONSTRATION. Il est évident que /.(x) est de classe Do. Pour que la 
condition (J) soit réalisée, il suffit, comme nous l’avons vu dans la démons- 
tration du corollaire 2, que f? (x) soit intégrable. Mais 


4 
[fr C(dx) < [rc + | FES du | u(dx) = 
SA 


= 1 + Î {Ur tint | du < 1 + 2Ac. 


- à 


Reste à appliquer le théorème 3. La dernière proposition du corollaire 3 
résulte de l’inégalité de Cauchy-Bouniakovski, puisqu’en vertu de cette 
dernière 


[WiClutax) < 1°7(0. 
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COROLLAIRE 4. Supposons que 8 est le paramètre de translation de la 
famille fo(x) = f{x — 0), In ftc)dx > —. Si la fonction f(x) est bor- 
née (sinon la méthode du maximum de vraisemblance perd son sens (cf. 
$ 26)) et présente un ensemble B de points de discontinuité, dont la mesure 
de Lebesgue u(B°) de l'adhérence est nulle, alors l'estimateur du maximum 
de vraisemblance 0* est fortement convergent. 


DÉMONSTRATION. Assurons-nous que les conditions du théorème 3 sont 
remplies. La condition (J) est réalisée de façon évidente. La relation f:(x)e 
€ Do résulte de la définition de Do dans laquelle il faut poser C: = B° -— 
— 1 (ceci est une translation de vecteur t de l’ensemble B°, complémentaire 
de l’adhérence de B). L'ensemble B° étant ouvert, la relation x — 1 € B° — 
— t entraîne x — 14 € B° — t pour les |f£ — t| assez petits. Ceci exprime 
que f(x — tx) — f(x — 1). < 

Signalons qu’il est superflue de supposer que la condition (40) est réali- 
sée dans le corollaire 4, car elle l’est automatiquement. Si l’on admet que 
(48) n’est pas remplie, on arrive à une fonction (x) périodique, ce qui est 
impossible. 

S'agissant des conditions du corollaire 4 on remarquera que la condition 
portant sur la « continuité » de f(x) est assez faible. Elle non plus n’est visi- 
blement pas essentielle. C’est ce qu’indique dans une certaine mesure l’exem- 
ple suivant. 

EXEMPLE I. Soit f(x) une fonction arbitraire à support borné Ja, b[ = 
= {x :/(x) > 0). Alors 


Po(lô* — 0] > 6) &< (1 — Fo(a + 8))" + F5(b — 6), (6) 


où Fe(x) = | feL)dy. L'inégalité (6) exprime la convergence forte de 6*. 


Elle résulte des relations 
{ô — 8 > 5] © [IT fe+stxi) > 0] C Nix > a + 0 + 6}, 
im] im]! 
Pa(ô* — 0 > 6) < [1 — Fo(a + 8 + 6)]" = [1 — Fo(a + 6)]”. 


La condition portant sur la finitude de l’intégrale ( fin/f{x)dx dans le 


corollaire 4 n’est pas non plus essentielle : on peut exhiber un exemple dans 
lequel cette intégrale prend la valeur — ©, alors que la condition (J) est 
remplie. 

Des remarques du $ 18 il s'ensuit que tout ce qui a été dit dans et après 
le corollaire 4 reste entièrement en vigueur pour le paramètre d'échelle. 


246 THÉORIE DE L'ESTIMATION DES PARAMÈTRES INCONNUS [CH. 2 


$ 28. Les résultats des $$ 23 à 27 pour un paramètre vectoriel 


Dans ce paragraphe on généralise les principaux résultats des $$ 23 à 27 
au cas vectoriel. On exposera ces résultats dans la même chronologie et l’on 
ne s’attardera que sur les points où l’introduction d’un paramètre vectoriel 
modifie soit l'énoncé du résultat soit les raisonnements. 

Soit donc 8 € 6 C R“, k > 1. Les énoncés des conditions (4,), (Ac), 
(A0), de même que les définitions du rapport de vraisemblance 


20 = 


et de la distance de Hellinger 
r(u) = Q(Po+u, Po) = [(Vfe+:%) — Vfe(x) Yu(dx), 


ne sont pas liés à la dimension. 

1. Inégalités pour le rapport de vraisemblance (résultats du $ 23). Pour 
étudier le comportement de la fonction Z(u) au voisinage de 0 nous aurons 
besoin de la condition suivante : /a fonction Vfe(x) est dérivable par rap- 
port à 0, la matrice d'information de Fisher 


I) = I) = | 


Er lu 0) gr 0) ) 


est bornée et définie positive pour tous les 0 € 6. 
Dans cette condition, le théorème 21.3A nous dit que pour tous les 8 


O<e< TT <h = 7 Sup) < æ. (2) 


Ici et dans la suite [u| = Vu? + ... + u£ représente la norme euclidienne 
du vecteur u = (ur, ..., Uk). 

La première proposition du théorème 23.1 et sa démonstration se géné- 
ralisent au cas multidimensionnel sans changement, car elles ne sont pas 
liées à la dimension. 


THÉORÈME 1. Si (2) est remplie, on a 
E,Z!/2(u) < e-n8luf?/2. 


Pour généraliser le théorème 23.2 nous aurons besoin de la condition 
subsidiaire suivante : 
7 = sup Eell'Gu, 8) < © (3) 
€ 


pour uns > &. 
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THÉORÈME 2 (analogue du théorème 23.2). Si les conditions (2) et (3) 
sont réalisées, alors pour tous z, n > 1, 


Po(sup Z(v/vn) > e°) < cye” 2e", (4) 
Jul > « 
oùc< et fi > 0 ne dépendent que de Kk, gets. 


La démonstration, particulièrement simple du théorème 23.2, ne se 
généralise malheureusement pas au cas multidimensionnel. Ceci est dû au 
fait que le maximum de la fonction p(u) dans le domaine D C R“*,k > 
> 1, ne peut, contrairement au cas scalaire, être estimé par une intégrale 
de |p’(u)| le long d’une courbe fixe de D. La nouvelle démonstration 
occupe beaucoup de place et nous avons jugé plus raisonnable de la propo- 
ser dans l’Annexe VII. 

La démonstration des propositions relatives à la convergence de l’esti- 
mateur du maximum de vraisemblance et à l’estimation des moments du 
n° 2, $ 23 n’est pas liée à la dimension. Ces propositions restent en vigueur 
sous la forme suivante. 


THÉORÈME 3 (analogue du théorème 23.3). Si les conditions (2) et (4) 
sont réunies, la relation (23.6) dans laquelle il faut remplacer g/4 par B (cf. 
théorème 2) est valable pour tous z n > 1. 


Les propositions des corollaires 23.1 et 23.2 restent valables si l’on rem- 
place encore g/4 par 6. 

2. Propriétés asymptotiques du rapport de vraisemblance (résultats du 
$ 24). Par conditions (RR) dans le cas vectoriel on comprendra l’ensemble 
de conditions suivantes : 

1) Les conditions (A0), (A:), (R). 

2) La fonction I(x t) est deux fois continüment dérivable par rapport 
à 0 à l'intérieur de 6 pour {x]-presque toutes les valeurs de x. Ceci étant, 
on suppose que les dérivées 


2 
IX, 0) = CD are 


admettent un majorant I(x) indépendant de t (|{{{x t)1 < /(x)) pour lequel 
l'intégrale 


EG) = [Cf Ou) 


converge uniformément *) en t € ©. 


*) Cf. note de la page 221 sur la convergence uniforme du $ 24. 
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3) De plus on admettra en cas de besoin que la condition (3) est remplie. 

Comme en dimension un, nous aurons besoin des deux propriétés sui- 
vantes qui découlent des conditions (RR) : 

1) La possibilité d’une double dérivation par rapport à 8 sous de signe 
d'intégration dans l'égalité 


[fe(x)u(dx) = 
possibilité qui exprime que 
0 pycoptdx) = 0, | 7 ficontdr) = (5) 
À 5, COX) = 0 | gag Je0x 
2) La convergence uniforme de l'intégrale I(0) : 
supEo{(/" (x, 0)”; | l'G, 8) > N] —+ 0 (6) 
lorsque N —+ oo. 


La démonstration de ces propriétés a été reportée à l’Annexe VI. Pour 
alléger l’exposé on peut les inclure dans les conditions (RR). 
D’après les égalités 


MD = Ter an 
15(x, 6) = 1. dfo(x) _ _ 1. de), 200 
fe)  06:060, fix) 6 6j 
on déduit des relations (5) que 
Eol; (1, 0) = 0, 
Es/£Gu, 0) = —Eoli'(u, 6)j'Gu, 8) = —Iÿ(6). 


Comme en dimension un, les conditions (RR) expriment que les théorè- 
mes du $ 23 seront valables pour sup Z{v/Vn) et pour Vn(ê* — 0). 


Si les conditions (RR) sont cles on a les analogues suivants des 
lemmes 24.1 et 24.2. 


LEMME 1. Les fonctions lä{x, 0) sont continues « en moyenne » : 
Eowä(x:) — 0 


uniformément par rapport à 8 lorsque À — 0, où wä(x) = ne FA EX 0 + 


+ u) — Iÿ(x, 6)|. 
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La démonstration reprend mot à mot celle du lemme 24.1. < 
Posons 
(L'(4, 0 + wA), &) = (L(X, 0), uw) 


T 
À + &I(0)w |. 


Yn(Ô, 0) = sup 
AG 
Jw| = 1 
LEMME 2 (analogue du lemme 24.2). Supposons remplies les conditions 
(RR) et soit 6x > 0 une suite convergeant vers 0. Alors pour X € Po 
Yn(0n, )) . 0, Yn(Ôn; ÿ*) ps. 0. 


Dans ces relations les valeurs I(0) et I(0*) peuvent être substituées l’une 
à l'autre. 


DÉMONSTRATION. Comme en dimension un, il nous suffit de nous 
assurer que yx(ôr) > 0, où 


(L'(X, 8 + wA), w) — (L'(X,8),u)  wL”"(X, 6)? 


Yn(ô) = ee A à 


leo, = 1 


Or, ynôn) < + Z Dur, où us) est le plus grand module de 
 kj 
continuité des fonctions /ÿ(x, 8). Comme 


leu] < kw = K, 
k.j 

il vient 
vn(ôn) < 7 Lui) ® 


La suite de la démonstration repose sur le lemme 1 et reprend exactement 
les raisonuements du lemme 24.2. < 

Le théorème 24.1 se généralise au cas multidimensionnel de la manière 
suivante. 


THÉORÈME 4. Supposons remplies les conditions (RR) et soit &, > 0, 
n = 1,2,..., une suite convergeant vers 0. Si X € Po, alors pour les u 
tels que |u/Vn| < 5,, on a 


Y(u) m InZ(u/Vn) = (En, ) — 7 UIOEUTQ + e(X,0, 0), (®) 
où 
nCX, 6, u) < cx(X, 0) 7, 0, 


En = —— gradL(X. 0) = + L'X, 0) & hr: 
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La valeur u* = Vn (0* — 0) qui réalise le maximum de Y(u) se repré- 
sente sous la forme 


u = EI ONE + Ea(X, 0)), En(X,0) + 0, () 


où E est la matrice unité. En outre 
2Y(u*) = El" (O)EN(L + en(X, 0)) € 


e LEO € He, E € &orw. (0) 
Parallèlement à (8) on a la représentation 
Yu) — Yu) = 7 Qu — u*)IO)u — u*)T( + eA(X, 6, u)), 


leACX, 8, u)| < eaCX, 6). 


Dans toutes les assertions énoncées on peut remplacer I(8) par I(6*). 


De même que dans le $ 24, pare,(X, 8) on comprend ici des suites con- 
vergeant presque sûrement vers 0 par rapport à Pe. 

A noter encore que la partie principale de (8) peut être écrite sous la 
forme 


EuT — x ul@uT = 


= Lu = EI OEM — BI MONT + À EI ONE. 


Ceci représente la densité d’une loi normale multidimensionnelle de 
moyenne £,/7 !(0) et de matrice des moments d’ordre deux 7” !(8). 

DÉMONSTRATION du théorème 4. Elle reprend ad litteram celle du théo- 
rème 24.1 Pour A < 6, le lemme 2 nous donne 


(L'(X, 8 + Aw), w) = (L'(X, 0), w) — nAuwl(80)w (1 + ex(X, 0, Aw)), 
len(X, 8, Aw)| < En(X, 0). 


En intégrant cette égalité par rapport à A entre O et |u|/Vn et en posant 
w = u/|u|, on obtient 


lul/Vn 
L(X, 9 + u/Vn) — L(X, 60) = | (L'(X, 0 + Au), u)dA = 
0 


2 
: Fax 0 w) — 1 @1(0)eT (1 + EX, 0, u)) = 


= (En, u) — + UOu( + e,(X, 8, u)), len(X, 8, 0) & en(X, 8). 
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Le théorème limite central multidimensionnel (cf. Annexe V) nous dit que 


En = 7 2 l'(xù, 9) € Boo - 


=1 


Ce qui prouve la représentation (8). Les autres assertions du théorème se 
prouvent exactement comme dans le théorème 24.1 aux changements près 
liés au passage au cas multidimensionnel. La relation 


7 ET QT € Hu 


de (10) résulte des propriétés de la distribution normale (cf. n°4 du 
$ 2.2). <Æ 


A propos de la relation (10) il est utile de faire la remarque suivante. 
REMARQUE 1. Les matrices 7” !(0) et Z(8) sont définies positives et il existe une matrice 
17 "”2(@) qui est racine carrée de la matrice Z 7 !(8), c’est-à-dire vérifie la relation 


17 "261" 26) = 17 (8). 


En effet, si une matrice M > 0 (ie. définie positive), il existe une matrice orthogonale 
C pour laquelle CMC7 = diag(u, . .., À) est une matrice diagonale dont les éléments diago- 
naux À sont > 0. Si l'on pose maintenant AÆf!/? = C7 diag(\}’?, ..., X/2)C, on obtient de 
toute évidence la racine carrée de M. 

Ceci et la symétrie de la matrice Z” !(8) nous permettent de mettre (10) sous la forme 


2 CT AMEN VAT. 


Le vecteur n, = £,/” !/2(@) est de toute évidence la somme normée de n vecteurs aléatoires 
indépendants équidistribués de moyenne nulle et de matrice des moments d'ordre deux 


Ec(t.17 20) (8,17 20) = Eol” "(0)878,17 (8) = E, 


puisque 
Evtrér = Eo('(xi, 0)" (l' (x, 8)) = 10). 
Ceci exprime que t,/”"/2(8) & #0. d’après le théorème limite central multidimensionnel. 


THÉORÈME S (analogue du théorème 24.2). Supposons remplies les con- 
ditions du théorème 24.2 pour 8 € R* et « = B/2 (B a été défini dans le théo- 
rème 2). Alors 


J = { w(u* — u)q(0 + u/Vn)Z(u/Vn)II(du) = e*"q(6) x 
X | [ve — Jap -7 (u — u*)I(0)(u — ue] I(du) + e,(X, o| . (D) 


Si II est la mesure de Lebesgue, H(du) = du, alors 


(2x)*’? re 
J'= TG) e " q(@)XEw(n) + en(X, 0), (12) 
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où En(X, 0) — 0, n € do.r ‘(0 (En(X, 0) est une suite de vecteurs si w(t) 
P.s. 


est une fonction vectorielle). 


La démonstration du théorème 5 est calquée sur celle du théorème 24.2, 
puisque cette dernière n’est pas liée à la dimension. 

3. Propriétés de l’estimateur du maximum de vraisemblance (résultats 
du $ 25). Nous admettrons partout dans ce numéro que les conditions (RR) 
sont remplies. 

L’analogue du théorème 25.1 est de la forme suivante. 


THÉORÈME 6. L'estimateur du maximum de vraisemblance Ô* est 
asymptotiquement normal et de plus la convergence 


u* = (0* — 6)Vn & or 
est réalisée simultanément pour les moments de tout ordre. En particulier, 
Eon(ô® — 08)7(0* — 0) — 17 (6). (13) 


Par ailleurs, pour toute fonction continue w(t) telle que |w(t)| < es” /2 (le 
nombre B est défini dans le théorème 2), on a 


Eow(u*) — Ew(n), n € or ‘wo. 


La relation (13) exprime que 0* € Ke+2. 

Le théorème 6 résulte du théorème 4 (cf. (9)) et de l’analogue multidi- 
mensionnel du corollaire 23.2 qui découle à son tour du théorème 3 (compa- 
rer avec la démonstration du théorème 25.1). <Æ 

Définissons la classe Ko comme l’ensemble des estimateurs 8* dont le 
biais b(9) = (b1(0), . . . ,bx(0)) = Eo0* — 8 est tel que 


0b;(0 


æ%, °° 


Ib(8)1 = o(1/Vn), b:(8) = 


lorsque 7 —+ ©. 
Les analogues des théorèmes 25.2 et 25.3 sont de la même forme ici. 


THÉORÈME 7. Lestimateur 0* est un estimateur asymptotiquement 
R-efficace. De plus, 0* € Ki et est asymptotiquement efficace dans Ko. 


La R-efficacité asymptotique de 6*, qui est équivalente à (13), a visible- 
ment lieu. La démonstration de l'appartenance de 0* à Ko et de l'efficacité 
asymptotique de 8* dans K s'effectue exactement comme en dimension un. 
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Passons maintenant à la propriété de bayésienneté asymptotique. Dire 
qu’un estimateur 0* est asymptotiquement R-bayésien revient à dire par 
définition que (comparer avec le $ 20) 


E(0* — 0)7(8* — 6) = J/n + o(1/n), J = [17 "(NQ(d). (4) 
Dire que 0* est asymptotiquement bayésien revient à dire que 


lim.sup{nu(8*) — nv(86)] < 0, (15) 


où 64 est un estimateur bayésien minimisant v(0*) = E(8* — 8)(8* — 6)7 
pour toute matrice semi-définie positive Y. 


THÉORÈME 8 (analogue du théorème 25.4). L'estimateur Ô* est asympto- 
tiquement R-bayésien. Si la distribution a priori Q admet une densité par 
rapport à la mesure de Lebesgue sur 6, alors Ô* est un estimateur asympto- 
tiquement bayésien. 


DÉMONSTRATION. Elle est identique à celle du théorème 25.4. La rela- 
tion (14) pour 9* = 8* résulte de ce que 


limEn(ô* — 8)7(0* — 0) = 


n 


= ElimEon(ô* — 0)/(* — 0) = E7” (8) = J. 


no 


Le passage à la limite sous le signe de l'espérance mathématique (c’est-à- 
dire d'intégration) est licite, puisque la quantité Esn(ô* — 0)/(0* — 8) est 
majorée par une constante indépendante de 7 et de 8 (comparer avec le 
corollaire 23.2). 

Pour prouver (15) on remarquera qu’en vertu des résultats du $ 20 l’iné- 
galité intégrale de Rao-Cramer dans le cas où Q admet une densité est de 
la forme 


En(8* — 0)'(8* — 8) > J + o(1). 
Ceci exprime que 
nu(8$) > >vydÿ + o(1), 
où [J;l = J, lvl = V. D'autre part, en vertu de (14) on a pour 8* = 6* 
nv(ô*) = Svyÿy + o(1). 
De ces relations on déduit (15) pour 8* = 6%. 


Les théorèmes 25.5 et 25.6 admettent aussi des analogues. Du théorème 
5, par exemple, on déduit le 
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THÉORÈME 9 (analogue du théorème 25.6). Soit X € P4 et soit 0 un 
point intérieur de 6. Si q({t) est une densité continue et strictement positive 
à l’intérieur de © d'une distribution a priori, alors 


Vn(6* — 08) na 0, 
où 0$ est un estimateur bayésien associé à q(t). 


La minimaximalité asymptotique de Ô* peut être établie, comme le théo- 
rème 25.7, à l’aide de l’analogue multidimensionnel du critère de minimaxi- 
malité asymptotique démontré dans le corollaire 20.3 : 

lim. supE,n(6* — 80)V(8* — 0)7 = sup 31 F (8)v;,, 
«er 


no 1er 


Hg @)1 = 17), 
et à l’aide de la convergence uniforme dans (13) qui découle des résultats du 
paragraphe suivant. 
Les propriétés d’optimalité asymptotique de 8* doivent être utilisées avec 
circonspection dans le cas où la dimension £ du paramètre 8 est élevée. Il 
faut veiller à ce que le rapport n/k (le nombre d'observations sur un para- 


mètre scalaire) soit assez grand, sinon les conclusions risqueraient d’être 
fausses. 


EXEMPLE 1. Les concentrations 1, ..., un de n solutions sont testées 
deux fois en laboratoire. On admet que la variance o° des n observations 


(Xi, Y1), - . . , (Xn, Yn) est la même et que ces observations sont indépendan- 
tes et normales. On a donc 


En Le LV D 
Je(X) = Cr) EXP { 3 d mi) + Oyi hi) 1} 
où 
0 = Gi, ..., Un, oc). 


Les estimateurs du maximum de vraisemblance de y; sont égaux à 


Bt = 7 Ou + y). 


Il est évident que ces estimateurs sont sans biais et ne convergent pas. L'esti- 
mateur du maximum de vraisemblance de o° vaut 


(a)* = LE 2 — y:) + o/2 lorsque n —+ oo. 


Cet estimateur donne avec une grande crédibilité une valeur fausse du para- 
mètre 0° (une valeur deux fois moindre). 
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4. Calcul approché de l’estimateur du maximum de vraisemblance. Le 
$ 26 reste entièrement en vigueur dans le cas multidimensionnel si l’on com- 
prend par [L"(X, t)]_! la matrice inverse de L”(X, t). 

S. Propriétés de l’estimateur du maximum de vraisemblance en l'absence 
des conditions de régularité (résultats du $ 27). Les conditions de conver- 
gence de 8 formulées dans les théorèmes 27.1 à 27.3 sont indépendantes de 
la dimension. La démonstration de ces théorèmes reste entièrement en 
vigueur aux changements évidents près liés au fait qu’il faut recouvrir 
l'ensemble © (en vertu de la condition (4.)) non plus par un nombre fini 
d’intervalles mais de boules. On peut en dire autant des corollaires 27.1 à 
27.4. 


8 29. Uniformité en 8 des propriétés asymptotiques du rapport de vraisem- 
blance et des estimateurs du maximum de vraisemblance 


Les propositions des $$ 24, 25, 28 dans leur version uniforme nous 
seront utiles dans la suite et essentiellement dans les $$ 13, 14 et 15 du pro- 
chain chapitre. La plupart de ces propositions (notamment les propositions 
relatives à la P4-distribution limite de (4* — 8)Vn) ont été établies dans 
l’hypothèse où 8 est un point fixe de 6. Voyons ce qui se passe lorsque 8 
varie avec ñ. Il est clair que la distribution P4 variera aussi, de sorte que 
chaque échantillon X, aura sa « propre » distribution pour #7 = 1, 2,... 

Nous arrivons ainsi à un schéma de séries (cf. [11]) pour lequel les théo- 
rèmes limites fondamentaux seront d’une forme légèrement différente. En 
particulier, la loi forte des grands nombres n’a plus de sens, puisque les 
variables aléatoires envisagées ne sont plus définies (pour des nr différents) 
sur un même espace probabilisé. 

1. Loi des grands nombres et théorème limite central uniformes. Soient 
X € Po, ne = Mn(X, 0). 

DÉFINITION 1. On dira qu’une suite ..e converge uniformément en pro- 
babilité vers une constante a(8) si pour tout : > 0 


Sup Po(fnn.o — a(8)] > ‘) — 0 
0€6 


lorsque n — oc. 
Nous écrirons cette relation sous la forme « 7:.e —> a(8) uniformément 


en 0 ». 
DÉFINITION 2. On dira que 7..,e converge en loi vers une variable aléa- 
toire ne uniformément en 8 si pour toute fonction &$ continue et bornée 


SuplEep(n2.e) — Ev(ne)| — 0 (1) 


lorsque 7 — co. 
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Nous écrirons cette relation sous la forme « 7:,e = ne uniformément en 
8 ». Nous attribuerons la même signification à la relation « me & Ge 
uniformément en 8 », où Ga est la distribution de ne. 

Nous laissons au lecteur le soin de s’assurer que si les fonctions de répar- 
tition de n4 sont continues uniformément par rapport à 8, la relation (1) est 
équivalente à 


sup|Pe(rn.e < x) — Pme < x)| + 0. 
nn < 


Signalons qu'il y a équivalence entre la convergence uniforme 7,6 > 
7; 4(0) et la convergence uniforme en loi 77,8 = a(8), où a(8) est une 
variable aléatoire dégénérée. 

Signalons encore que la convergence uniforme est justiciable des théorè- 


mes de continuité fondamentaux. Si par exemple H est une fonction conti- 
nue, la convergence uniforme 7,.e = ne entraîne la convergence uniforme 


H{(nn.0) = H(no). (2) 


Ces assertions découlent directement des définitions. 
L’annexe V contient les démonstrations des théorèmes limites « unifor- 
mes » suivants. 


Soit X E P$ et soit a(x, 0): 2x © —+ R! une fonction vectorielle mesu- 
rable donnée. Considérons les sommes 


Sn(0) = Sax, 6) 


de vecteurs aléatoires indépendants qui sont fonctions du paramètre 8 € 6 
soit directement par l’intermédiaire de a(x, 8), soit par l’intermédiaire de la 
distribution P4 de xi. 

Rappelons que l’intégrale | (x, 0)P4(dx) est dite convergente uniformé- 
ment en 0 dans le domaine 6 si 


sup | IÿCx, 8){Po(dx) — 0 
0€6 
I(x.01>N 


lorsque N — oc. 
THÉORÈME I (loi uniforme des grands nombres). Si l'intégrale a(8) = 


= jacx, 0)Ps(dx) converge uniformément en 8 € ©, alors 


20 > (8) 


uniformément en 0 lorsque n — ©. 
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COROLLAIRE 1. Si la suite {8,} C 6 et si l'on se place dans les condi- 
tions du théorème 1, alors 


Ps. ( 20) — a(8,)| > e) + 0. 
On notera ce fait par 
Sn(0n) =. 
_— a(0h) ne 0. 


En étudiant le théorème limite central pour les sommes s,(8), on aura 
intérêt à admettre que a(@) = 0. (Ceci n’est pas une restriction de la généra- 
lité, puisque nous pouvons envisager de nouveaux termes a'(x;, 0) = a(xi, 
8) — a(6).) Posons o°(0) = Eo(a”(x:1, 0) a(x1, 0)) et désignons par a;(x1, 0), 
j = 1,2,..., 1, les coordonnées des vecteurs a(x:, 0). 


THÉORÈME 2 (théorème limite central uniforme). Si les intégrales 


jaitx, 0)Po(dx), j = 1,..., l, convergent uniformément dans ©, alors 


n(0 
Mn.0 = De = 7e € Po.c'(9) 


uniformément en 6. 


2. Variantes uniformes des théorèmes sur les propriétés asymptotiques 
du rapport de vraisemblance et les estimateurs du maximum de vraisem- 
blance. Remarquons préalablement que si les conditions (RR) sont rem- 
plies, les résultats du $ 23 sont uniformes en 8, puisque les seconds membres 
des inégalités des théorèmes 23.1 à 23.3 (et des théorèmes 28.1 à 28.3) sont 
indépendants de 6. 

Passons aux résultats des $$ 24, 28 relatifs au comportement asymptoti- 
que de Z(u/Vn). 

Les propositions des lemmes 24.1, 28.1, 24.2, 28.2 peuvent être rendues 
uniformes en 6. 


LEMME 1. Lorsque À — 0 
supEewi (1) — 0, (3) 


où wZ (x1) est le plus grand module de continuité des fonctions lÿ{x, 0). 


DÉMONSTRATION. La relation (3) à 8 fixe a été prouvée dans le lemme 
28.1. Si l’on admet la non-uniformité en 8, on peut exhiber un € > 0 et des 


17—4195 
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suites 0, — 0 € 6, A, — O0, tels que 
Eo.ws.(u) > €. (4) 
En posant pour simplifier w4.(x1) = w”, on obtient 
Esw” = Es(w”; fox) < 2fo(x)) + Es.(w”; fe.) > 
> 2fe(xi), l(x1) < N) + Es(w”; fe.(x1) > 2fe(xi), lG) > N). 


Le premier terme est < 2Eow” et converge vers 0 en vertu du lemme 28.1. 
Le second est < 2MJ,, où 
= [| fond) =1- | Jo(xutdx) + 0 
Jo.(x) > 2fo(x) PACE TIC) 

d’après le théorème de la convergence dominée. Le dernier terme enfin est 
£ Eo. (2x); /(Gx1) > AN) et en vertu des conditions (RR) peut être rendu 
aussi petit que l’on veut moyennant un choix convenable de N. Cette contra- 
diction avec (4) prouve le lemme. 


LEMME 2. Le lemme 282 reste en vigueur si l'on remplace la conver- 
gence presque sûre par la convergence yn(ôn, 0) > 0, Yn(ôn, 0°) >: 0 
uniforme en 6. 


DÉMONSTRATION. On suivra la démonstration du lemme 28.2. Remar- 
quons préalablement qu’en vertu du théorème 1 et de la convergence uni- 
forme de l'intégrale dans les conditions (RR), 


L'(X, 0)/n _ — Î(8) 


uniformément en 0 (la convergence des matrices porte sur les éléments). Par 
ailleurs, des théorèmes 23.3 et 28.3 il découle que 8* > 8 uniformément en 


0. De là il résulte que dans la relation y,(ô:, 8) — 0 (cf. lemme 28.2) on peut 
P 
remplacer /(0) par L”(8)/n et par 1(6*). 


En vertu de l’inégalité (28.7), l'estimation de -:(ô:, 9) se ramène à celle 
de 


o&(00 = À Doi, 8), 


où wA(x, 0) est le plus grand module de continuité des fonctions /{{x, 8). 
L'inégalité de Tchébychev nous donne 


supPeQu£(X) > 6) < + SUPEsuE(x,8). 
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Mais le lemme 1 nous dit que supEow4(x1, 0) — 0 lorsque A — 0. Ceci 
[J 
prouve que 
LEUX) 7» 0, Yn(ôn, 6) > 0 (5) 


uniformément en 6. 

_ Les inégalités (24.6) ramènent l'estimation de y,(5,, 6*) à celle de 
GTS +18 - (A). Comme 60* — 8 > O0 uniformément en 8, on déduit de (5) 
que 


OS 4 16e_g(0) 7 0, Yn(ôn, Ê*) 72 0 
uniformément en 0. <Æ 


THÉORÈME 3 (analogue du théorème 28.4). Si les conditions (RR) sont 
remplies, le théorème 28.4 reste en vigueur moyennant les changements sui- 


vants : «n(X, 0) > 0 uniformément en 6, &x € Do.ne, 2Y(u*) € Hk unifor- 
mément en 6. 

DÉMONSTRATION. Elle repose entièrement sur le lemme 2 au même titre 
que la démonstration du théorème 28.4 repose sur le lemme 28.2. On éta- 
blira donc ce théorème en procédant, dans la démonstration du théorème 


28.4, aux changements évidents entraînés par la substitution (résultant du 
lemme 28.2) de la convergence uniforme £&,(X, 0) > 0 à la convergence e(Y, 


6) +. 0. Ajoutons par ailleurs que 
En = L 2, l'O, 0) € dore) 
is] 


uniformément en 0 en vertu du théorème 2 et de la convergence uniforme 
(28.6) de l’intégrale 7(8) (ceci est la matrice des moments d’ordre deux pour 
l’(x1, 0) qui résulte des conditions (RR) (cf. Annexe VI). De Ilà et des 
remarques relatives à (2), on déduit la convergence uniforme 


2Y(u*) € Hi. < 


Les changements effectués dans le théorème 3 (par rapport au théorème 
28.4) peuvent être introduits dans les théorèmes 28.5 et 28.6. 
Le théorème 3 admet les deux corollaires suivants. 
THÉORÈME d. 
u* = Vn(ê* — 0) € br o (6) 
uniformément en 6. Ceci étant, pour toute fonction w(x) continue presque 
partout par rapport à la mesure de Lebesgue et telle que |w(x)| < Cen A 


17* 
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(la valeur B > 0 est définie dans le théorème 28.2), on a 
suplEow(u*) — Ew(ne)| — 0, (7) 
où ne € or '(. 
DÉMONSTRATION. La première assertion résulte des relations 
u* = Enl 7 '(ONE + en(X, 6), 
len(X, 8)| 7 0, En € Po.rce), 
uniformes en 0 qui sont contenues dans le théorème 3. 


Pour établir la deuxième assertion, on admettra que (7) est mise en 
défaut. Il existe alors un à > 0 et une suite 8, — 0 € © tels que 


IEo.w(u*) — Ew(ne.)| > à (8) 


pour tous les n. Or o.r-'«e) = Po,r'çe et par suite, la P,.-distribution de 
u* (resp. de w(u*)) converge, en vertu de (6), faiblement vers la distribution 
de no (resp. de w(ne)). Par ailleurs, le corollaire 23.2 (cf. également $ 28) 
nous dit que 


supEow""(u®) < supEsexp{3(4*)8/4) < G < ©. 


De là et des théorèmes de continuité des moments, il vient 
Eo.w(u*) — Ew(no). 


Cette relation contredit (8), puisque Ew(n6.) —+ Ew(no). 
Supposons que 4, € 27. 


THÉORÈME S. Si Pe(A,) — 0, pour tout N fixe on a 
supP,, (An) 0. 
IN 
Cette propriété des suites de distributions P,,,,,7,, 7 — c, est appelée 


propriété de contingence (cf. [71]). Nous l’utiliserons au chapitre 3. 
DÉMONSTRATION. On a 


Pos u/vr(An) _ Eo{Z(u/Vn); An} < 
< Eo(Zu/Vn); AN {YGU) < c)) + P,,, 7) > ©) < 
< Pe(As) + P,,, Yu) > c). 


Puisque P:(4,) — 0, pour prouver ce théorème il faut étudier seulement 
sup P,,,,%(Y(u) > c). D’après le théorème 3, on a uniformément en u 
IUIGN 


Y(u) = (En, u) — z uIO)uT( + en(X, 0 + u/Vn)) € & a À 


0 
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où 0° = ul(8)u? < N°A4(6) pour [u| < Net A4(8) est la plus grande valeur 
propre de la matrice /(0). Vu que 

+3,05 9D € 0 a 
il vient en vertu de la convergence uniforme dans (9) 

lim D Pour} > €) < sup Bo(le, D = $owa oc, D. 
Cette valeur peut être rendue aussi petite que l’on veut moyennant un choix 
convenable de c. < 

3. Quelques corollaires. - : : 

1) Le théorème 25.3 affirme en particulier que 0* € K°, où X° est la 
classe des estimateurs asymptotiquement centraux, définie par la relation 
(on étudie le cas scalaire) 


Po(0* > 0) — 1/2 
uniformément en 0. Du théorème 4 il résulte que cette partie du théorème 
25.3 est valable, puisque 
Po(0* > 0) = Po(Vn(ô* — 0,77 !/2(8) > 0) —+ &o1(0, of) = 1/2 


uniformément en 0. < 
2) Au $ 25 nous avons formulé le théorème 7 de minimaximalité asymp- 
totique de 0*. Pour prouver ce théorème il reste à établir le lemme 25.1 qui 
dit que 
lim.supEon(ô* — 6)? = sup7” (6), (10) 
0er 


n— 0er 


où l'est un intervalle fermé quelconque de 6. Mais cette proposition résulte 
directement de la convergence Eon(ô* — 0)? —+ 77! (8) uniformeen8e 6 
qui rend licite le passage à la limite sous le signe sup - 


lim. sup Eon(6* — 0)? = sup. lim a Eon(Ô* — 0) = sup] 1(0). < 
€ 


no 0€er 


Nous avons une proposition identique à (10) assurant la minimaximalité 
asymptotique de 0* dans le cas multidimensionnel : 


lim. sup Eon(0* — 0)V(6* — 077 = sup Duulÿ 1(0), 
T 


no 


Ug "@) = 77 "(6), 


pour toute matrice Y. 
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$ 30* Sur les problèmes de statistique relatifs 
aux échantillons de taille aléatoire. 
Estimation séquentielle 


L'exemple 18.3 montre que les échantillons de taille aléatoire se présen- 
tent souvent en pratique et sont naturels. Un autre exemple est lié à l’estima- 
tion séquentielle. Ce genre d’estimation est utilisé dans les cas où les obser- 
vations sont séquentielles et qu’il faut minimiser leur nombre en raison, par 
exemple, de leur coût élevé. Ceci étant, la règle d’estimation (c’est-à-dire la 
construction d’un estimateur 0*) doit être définie en même temps que la 
règle d’arrêt des observations. Ces règles peuvent être de nature différente: 
on peut par exemple sommer des coûts c(x;) donnés des observations x; tant 
qu’on n’a pas atteint une quantité donnée f. Dans ce cäs, la date » d'arrêt 
(le numéro de la dernière observation ou la taille de l’échantillon) sera défi- 
nie comme suit : 


k 
p = min fe: > c(x) > , 
is]! 


cette quantité désigne la « date du premier passage du niveau f » dans une 
promenade de sauts c(x;) (cf. [11], chap. 8). On peut sommer !’ « informa- 
tion » /(xi, 0) = (l'(xi, 0))° et cesser les observations lorsqu'on aura atteint 
un niveau donné, et ainsi de suite. 

Dans ces exemples, » est un instant markovien, c'est-à-dire {v > n}j€ 
€ o(X1,:. . . , Xn). Ceci est l’une des principales conditions que l’on pose en 
étudiant les problèmes d'estimation séquentielle. Si cette condition est réali- 
sée avec d’autres moins fondamentales, l’inégalité de Rao-Cramer reste en 
vigueur sous la forme 


Le D =. 
VE 2 DE,” 


où 0* = 0x1, ..., x,) est un estimateur sans biais de 8, 7(8) la quantité 
d’information de Fisher. La démonstration de cette inégalité est identique 
à celles du $ 16; il faut seulement se servir de l’identité de Wald (cf. [11]) 
pour calculer la quantité d’information de Fisher contenue dans l’échantil- 
lon (x1, ..., X,). 

Si » dépend d’un paramètre { comme dans l’exemple 18.3, de sorte que 
y +, © lorsque f —+ «, il est alors possible de construire des estimateurs 
asymptotiquement optimaux dont l'erreur quadratique moyenne est asymp- 
totiquement équivalente à (/(8)E) ” ‘. 
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$ 31. Estimation par intervalle 


1. Définitions. Jusqu'ici nous avons étudié les propriétés et les procédés 
de détermination des meilleurs estimateurs ponctuels du paramètre inconnu 
0 qui définit dans une famille = {P4} une distribution P4 associée à 
l'échantillon X. Les estimations ponctuelles sont utilisées dans les cas où il 
faut désigner un nombre 8* appelé à remplacer le paramètre inconnu 6. 

Il existe une autre approche assez répandue de ce problème. 

On admettra que 8 est un paramètre scalaire (le cas vectoriel sera exa- 
miné au n° 6). On sait qu’il est impossible de déterminer exactement 8 au 
vu de l'échantillon donné. Mais on pourrait tenter d’indiquer un intervalle 
]8”,8*[ qui contiendrait la valeur inconnue de 8 avec une probabilité assez 
élevée donnée a priori. Il est évident qu'on aura intérêt à ce que cet intervalle 
soit le plus étroit possible. Dans de nombreux problèmes on demande, par 
exemple, en augmentant la taille de l’échantillon, de construire un intervalle 
]2”, 8*[ dont la longueur soit au plus égale à une quantité donnée. 

DÉFINITION 1. Supposons que pour un € > 0 il existe des variables 
aléatoires 0* = 0*(e, X) telles que 


P:(07 (€, X) < 8,8*(4, X) > 0) > 1 — €. (1) 


L'intervalle 10”, 8 * [ s’appelle alors intervalle de confiance au seuil 1 — 
— € pour l'estimation de 06. 
Il est évident que (1) peut être mise sous la forme 


Pa <8<8*)>1-Ee. 


L'événement contenu sous le signe de la probabilité consiste en ce que 
l'intervalle aléatoire ]0”, 8*[ recouvre la valeur inconnue de 8. Il serait 
moins correct de lire cet événement « 8 tombe dans l’intervalle 187, 9*[ », 
puisque 8 n’est pas aléatoire. 

Les valeurs 0 * s’appellent bornes de l'intervalle de confiance, le nombre 
1 — €, niveau ou seuil de confiance. 

Ainsi l'estimation par intervalle diffère de l’estimation ponctuelle sur les 
deux points suivants : 

1) L'estimation par intervalle est moins « exacte », car elle indique tout 
un ensemble de valeurs éventuelles de 6. 

2) L’affirmation « 8 € ]8-, 8 * [ avec une probabilité > 1 — € » est vraie, 
tandis que l’événement {9 = 0*} est en général de probabilité nulle. 

Pour € on prend généralement un petit nombre. On construit 80 *(e, X), 
puis on décrète au vu de l'échantillon que 8 € J87(e, X), 8* (e, X)[. En pro- 
cédant ainsi on se trompera au cours de nombreuses répétitions de l’expé- 
rience environ dans 100 € % des cas. Si par exemple € = 0,001, l'erreur se 
produira environ une fois sur mille cas. 


264 THÉORIE DE L'ESTIMATION DES PARAMÈÊTRES INCONNUS [CH. 2 


En décrétant que la relation 0 € ]07,8*[ est vraie, on se sert du fait que 
si un événement est de probabilité € et que € soit petit, il est pratiquement 
impossible que cet événement se produise en une seule épreuve. Le passager 
qui prend place dans un avion en est fermement convaincu. Il lui suffit de 
savoir que la probabilité que le vol se termine normalement soit élevée (il 
sait en effet que cette probabilité n’est pas égale à 1). Cette approche repose 
justement à la base de nombreuses procédures statistiques. 

Nous commencerons par mettre en évidence le cas où la construction 
des intervalles de confiance est naturelle et n’apporte aucune complication. 
Nous avons en vue le cas bayésien qui a déjà été envisagé dans les $$ 10, 
11 et 20. 

2. Construction des intervalles de confiance dans le cas bayésien. On 
admettra que le paramètre 0 est aléatoire et de densité a priori q(t) par rap- 
port à une mesure À sur 6. On demande de construire un intervalle de con- 
fiance pour la valeur retenue de 8 au vu d’un échantillon X € Ps. 

Si la condition (4,) est remplie, on sait du $ 10 qu’il existe alors une dis- 
tribution a posteriori de 8 (conditionnelle par rapport à X) de densité 


f(X)q() 


QUX) = — 
(a qU)X (du) 

par rapport à la mesure À. Ceci exprime que pour 0 * (£, X) il suffit de pren- 

dre deux nombres quelconques 8* pour lesquels 


CE 
[qulX du) = 1 — € 
z: 


{ 
(ou > 1 —esi Î q(u|X)\(du) varie de façon discrète en fonction de fr). En 


d’autres termes, pour 0 ” et 8 * il faut prendre les quantiles de la distribution 
a posteriori respectivement d'ordre 1 — €2 et €, pour des € et €2 tels que 
E1 + E2 = €. 

Contrairement au cas non bayésien, dans la relation 87 < 8 < 8° les 
trois éléments sont aléatoires : les bornes 0 * et la quantité 8 elle-même. 

Il est immédiat de voir que la procédure décrite donne lieu à un certain 
arbitraire dans le choix des nombres €, et €2. Cet arbitraire est parfois écarté 
par la position même du problème, par exemple lorsqu'il faut déterminer 
seulement la borne supérieure ou inférieure de l’intervalle de confiance. 
Dans ce cas, il faut poser &: ou £2 égal à 0 et rendre infinie la borne corres- 
pondante. Si les bornes sont symétriques, il faut choisir &, de façon à rendre 
l’intervalle ]0”, 8 * [ le plus petit possible. Pour les distributions q(f|X) pro- 
ches de distributions symétriques, ceci a lieu pour £1 = £2 = €/2. 
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3. Construction des intervalles de confiance dans le cas général. Interval- 
les de confiance asymptotiques. Les principales méthodes de construction 
des intervalles de confiance utilisent les estimateurs ponctuels. Nous com- 
mencerons par étudier l’approche asymptotique de construction de ces 
intervalles. 

DÉFINITION 2. Soit X = [X]h € Po et supposons que pour € > Oil 
existe des variables aléatoires 9* (e, X) telles que 

lim.infP4(0 7 (e, X) < 8 < 8*(e, X)) > 1 —- €. (2) 
L'intervalle ]9”, 8* [ s'appelle alors intervalle de confiance asymptotique au 
seuil 1 — €. 

Dans cette définition il est nécessaire de souligner qu’il est question en 
fait d’une suite d’intervalles ]0;, 07 [ définis pour chaque #. Formellement, 
la notion d'intervalle de confiance asymptotique appliquée à un échantillon 
de taille fixée est peu intéressante. II n'empêche qu’on se sert de la relation 
(2) pour les grands n, au même titre que du théorème limite central pour 
le calcul approché des distributions des sommes d’un nombre fini de varia- 
bles aléatoires. 

Nous avons vu dans les paragraphes précédents que la plupart des esti- 
mateurs ponctuels étudiés étaient asymptotiquement normaux. Nous cons- 
truirons plus bas des intervalles de confiance asymptotiques basés sur ces 
estimateurs. 

Soit 0* un estimateur asymptotiquement normal : 


(8* — 0)Vn € Po, (3) 


et soit o(8) une fonction continue. Comme 0* -+> 8, la dernière condition 
exprime que 0(0*) > o(8). De là et de la relation (3) il s'ensuit en vertu du 
deuxième théorème de continuité que 
(8* — 6)Vn 
o(0*) 
Désignons par \; le quantile d'ordre 1 — 6 de la distribution normale, 
c’est-à-dire le nombre tel que 0,10 — ©, XD = 1 — 6, ou P(|E| < À) = 
= 1 — 26si £ € o1. Désignons provisoirement pour abrèger X,,, par B, où 
€ > Oest fixe et donné. De (4) il vient alors 


(0* — 6)Vn h 
imPe (| < 8) = | — €. 


Or cette relation peut être mise sous la forme 
lim P,(0* — Bo(0*)/Vn < 8 < 0* + Bo(8*)/Vn) = 1 — €. 


& 0.1. (4) 
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Donc, les nombres 


0* = 0* + Bo(8*)/Vn (5) 


vérifient la définition 2 et par suite sont les bornes d’un intervalle de con- 
fiance asymptotique au seuil 1 — €. 

Si maintenant nous construisons l'intervalle (5) pour un échantillon fixe 
X de taille n, son seuil sera différent de €, mais cette différence sera petite 
si n est assez grand. Il faut donc manipuler les intervalles de confiance 
asymptotiques avec une certaine prudence en s’assurant préalablement à 
partir de quelles valeurs de 7 la probabilité de l’événement {9 € ]J9-,8*f} 
est suffisamment bien approchée par la valeur limite. En général, plus € est 
petit, plus les conditions imposées à la taille n de l'échantillon sont strictes. 
La taille nécessaire dépend aussi de la distribution P, et de la statistique 0*. 

EXEMPLE 1. Supposons que X# € F,.. et utilisons l’estimateur efficace 

n — 1 


a* = —— . Dans les exemples 4.1 et 16.1, on a établi que 
nx 2 


Eca* = o, Voa* = y 


de sorte que o°(œ) = @°. La relation (5) nous donne 


a = "= la + p/vn). (6) 


nx 
A quoi est égal le seuil de cet intervalle? 
Il nous faut trouver la probabilité F1 de la double inégalité 


D q = BV < à < 7 + 8/Vr) 


n 
nx nx 


où, ce qui est équivalent, de la double inégalité 
1 — 8/Vn < — < 1 + B/Vn, 


où nax € l'in. Le paramètre æ étant paramètre d'échelle, il vient 2nox € 
E Ti/2n = Ha. Donc, le seuil exact de l'intervalle (6) est égal à 
2(n 1) +8/Vn) 
Y1/2.n(X0)dx, (7) 
2(n- 1)(1-8/Vn) 


OÙ y1/2,n est défini dans le $ 2 *). 
*) La remarque que l,,421 = H2, est utile, car elle permet d'appliquer au calcul de F, 


(si 2X est entier) les tables de la distribution x? citées en annexe et dans de nombreux aide- 
mémoire de statistique mathématique. 
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Pour € = 0,05 et n = 30, on a 8 = 1,96, (n — 11 — B/Vn)/n = 0,6201, 
(n — 1)(1 + B/Vn)/n = 1,3126. 

Donc, l’intervalle de confiance asymptotique au seuil 1 — € = 0,95 pour 
n = 30 est l’intervalle ]0,620/x, 1,313/xf. 

Si l’on utilise les tables de la distribution du x? à 60 degrés de liberté, 
on trouve en vertu de (7) que le seuil exact de cet intervalle de confiance est 
égal (au millième près) à 0,937 = 1 — 0,063. Ceci étant, les « contribu- 
tions » des bornes de gauche et de droite de l’intervalle de confiance ne sont 
pas égales (comparer avec l’approximation normale) et valent respective- 
ment 0,010 et 0,053. 

Pour n = 50 l'intervalle de confiance asymptotique au seuil 0,95 sera 
]0,708/x, 1,252/x[. Son seuil exact sera égal à 0,942 = 1 — 0,058 (les « con- 
tributions » seront égales respectivement à 0,014 et 0,044). Il est clair que 
si l’on continue de faire croître n, les « contributions » se rapprocheront de 
0,025. 

Revenons à l’intervalle de confiance (5) construit à l’aide de l’estimateur 
asymptotiquement normal 0*. Contrairement au cas bayésien l’arbitraire est 
introduit ici par le choix de l’estimateur 9*. La forme des bornes de l’inter- 
valle montre qu’on peut obtenir un intervalle de dimensions voulues soit en 
faisant croître la taille de l’échantillon 7 (ce qui n’est pas toujours possible), 
soit en réduisant 0(0*). On est ainsi conduit à l’importante conclusion sui- 
vante : à tailles égales le meilleur intervalle de confiance sera fourni par 
l’estimateur dont la variance o(8) est la plus petite. Donc, les meilleurs inter- 
valles de confiance asymptotiques seront donnés par les estimateurs asymp- 
totiquement efficaces. 

Si les conditions (RR) sont remplies et 8* appartient à la classe Ko N 
NKe,2 (cf. $$ 8, 16), les bornes du meilleur intervalle de confiance asympto- 
tique sont 


0* = 0* + B/Vni(6*), 


où 0* est une estimation asymptotiquement efficace quelconque, par exem- 
ple une estimation par le maximum de vraisemblance. 

D’autres méthodes de construction des intervalles de confiance asymp- 
totiques seront envisagées au n° 6. 

4. Construction d’un intervalle de confiance exact à l’aide d’une statisti- 
que donnée. Supposons que pour statistique nous avons choisi un estima- 
teur 0*, Il est naturel de chercher un intervalle de confiance symétrique au 
seuil 1 — e, sous la forme 0* + Ale, X) ou 0*(1 + A(e, X)) comme nous 
l'avons fait dans l’exemple envisagé plus haut. Mais la réalisation de ce plan 
soulève de grosses difficultés, car dans le cas général les bornes +A(e, 4) 
dépendront du paramètre inconnu 8 : en effet A(e, 7) doit être déterminé 
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à partir de la condition 
P9(0* — A(e, À) < 0 < 0* + A(e, À)) > 1 — € 


dans laquelle 8 figure de façon essentielle et assez compliquée, notamment 
par l’intermédiaire de la distribution Pa. 

Il faut un procédé spécial pour construire les intervalles de confiance à 
l’aide de l’estimateur 0*. 

Le procédé proposé plus bas fait intervenir l’estimateur 0* et une statisti- 
que quelconque S. Désignons la distribution de S par Ge et posons 
Go(x) _ Go — ©, xD. 

DÉFINITION 3. On dira qu’une statistique S dépend en loi monotone- 
ment de 6 si pour tous x, 01 < 8,,ona 


Go,0x, ©D < Gae,(x, D, 
ou ce qui est équivalent 
Go,(x) > Ge,(x). (8) 
Tous les estimateurs raisonnables 0* jouissent de cette propriété. 


Si la dépendance monotone de Ge(x) par rapport à 8 est de plus conti- 
nue, l’équation 


Ge(x) = y 


admet toujours une solution 9 pour tout y € ]0, 1[, que nous désignerons 
par b(x, y). 


THÉORÈME 1. Si e1 + €2 = €, la statistique S dépend monotonement en 
loi de 8 et la fonction Ge(x) est continue par rapport à 6 et x, alors les valeurs 


07 = b(S, 1 —e2), 0° = b(S,e:1) 


sont les bornes d’un intervalle de confiance au seuil 1 - €. 


DÉMONSTRATION. Elle est presque évidente. Utihisons le fait que si la 
fonction de répartition F{x) est continue et £ € F, alors F(£) € Uno: 
(P(F(8) < x) = P(E < F7! (x)) = FFT l(x)) = x). En vertu de cette remar- 
que, Gs(S) € Uo1 et par suite 

Peer < Go(S) < 1 —e2) = 1 —-e, 
Pe(b(S, 1 — € 2) < 0 < b(S,E 1)) = 1 —- €. A 


Il est souvent commode d° « inverser » en deux étapes la fonction Gae(S) 
intervenant dans le théorème. D'abord par rapport à x, c’est-à-dire qu’on 
définit les quantiles Ge ‘(y) comme les solutions des équations Go(x) = +, 
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et ensuite on résout les équations 
Gs'() =S G'A-e2)=S 


par rapport à 9. Ces équations admettent toujours des solutions, puisque 
Ge (y) est monotone et dépend continûment de 8 par hypothèse. 

La figure 3 représente les courbes y = Go '(e1) et y = Go ‘(1 — e2) qui 
définissent pour chaque 0 un domaine de valeurs de y auquel la probabilité 
d’accès est égale à 1 — € pour un estimateur S = 0*. Comme déjà signalé, 


Fig. 3. 


la procédure de construction de l’intervalle de confiance se traduit par 
l’inversion des fonctions 


= Ge'(a), y = Ge: (1 —- 1), 


c’est-à-dire par la recherche des points d’intersection des courbes représenta- 
tives de ces fonctions avec la ligne de niveau y = S. Les points d’intersection 
obtenus nous fournissent l’intervalle ]0-, 9* [ cherché. 

Si la condition de continuité est violée (dans le cas notamment de varia- 
bles aléatoires S discrètes), la procédure exposée et le théorème restent dans 
l’ensemble en vigueur à la seule différence que dans la définition des quanti- 
les Ge !(+) il faudra satisfaire l’inégalité Ge(]Gs ‘(e1), Go (1 — e2)D > 1-— 
— £ au lieu de l'égalité. Le théorème 1 devient alors 


P9(07 <80<80*)>1-e, 


où 8* sont solutions des équations Go '(e1) = S et Ga (1 — €2) = S. 
L'intervalle ]0”, 0 *[ sera comme précédemment appelé intervalle de con- 
fiance au seuil 1 — €. 

Si l’on construit l’intervalle de confiance ]0 ”, 8 * [ à l’aide de l’estimateur 
8*, on voit sur la figure 3 qu’il sera d’autant plus étroit que le sera l’intervalle 
1G5 l(e1), Ge (1 — e)[ ou, ce qui est équivalent, que la distribution de 0* 
sera plus concentrée autour de 0. On est conduit donc au même problème 


270 THÉORIE DE L'ESTIMATION DES PARAMÈTRES INCONNUS [CH. 2 


qu’en théorie de l’estimation ponctuelle, savoir la recherche des meilleurs 
estimateurs 0*. 

La construction des meilleurs intervalles de confiance sera étudiée en 
détail dans le £ 3.8. 

La procédure d’inversion de la fonction de répartition Ge(x) est assez 
épineuse en raison de la forme complexe de Ge(x) même pour les familles 
de distributions citées dans le $ 2. Aussi le calcul des bornes des intervalles 
de confiance est-il essentiellement tabulé. Dans l’exemple suivant qui servira 
à illustrer la construction d’intervalles de confiance d’après la procédure 
décrite dans le théorème 1, on utilisera pour simplifier une approximation 
normale. 

EXEMPLE 2. Soit X# € B,. Pour estimateur de p prenons l’estimateur 
efficace p* = v/n, où » est le nombre de succès dans 7 épreuves (> peut 
être par exemple le nombre de pièces défectueuses dans un lot de 7 pièces. 
On demande l'intervalle de confiance pour le pourcentage p de loups). 

Ona(g=1-p) 


Go = Pp* <X = P, (22 - | 


Vnpq Vnpq 
D’après le théorème 1 il faut résoudre l’équation 
Gh(°) = y (9) 


pour les valeurs de y égales à € /2 et 1 — e/2. Pour les grands n le théorème 
limite central affirme que G,(x) = (x — p}n/Vnpq), où &() = 
= 0,10 — ©, yD, et par suite l'équation (9) peut être remplacée par son 
approximation 

(* — p}n/Vnpq) = y, y =€/2,1 -e/2, 
ou, ce qui revient au même, |[(p* — p}n/Vnpq | = \, n = B; 


G* — p} = B?p(i -— p}/n. 


Cette équation pour les bornes p* de l’intervalle de confiance est l’équation 
d’une ellipse allongée pour les grands n le long de la bissectrice p* — p = 
= 0. La résolution de cette équation par rapport à p nous donne 


p* = p* + BVp*{ - p*)/n. 
On vérifie immédiatement qu’on aurait obtenu le même résultat en appli- 


quant l’approche asymptotique développée au n° 3. 
Si n n'est pas assez grand, il faut calculer G,(x) à l’aide de la formule 


CERF G(x) = 2 Crp“Q — py'7*, 


et appliquer ensuite la procédure du théorème 1. 
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Supposons par exemple que » = 2 pièces sur 7 = 10 sont défectueuses. 
Pour € = 0,05 les bornes exactes de l’intervalle de confiance sont alors éga- 
les à p7 = 0,037 et p* = 0,507. L'importante dimension de cet intervalle 
s'explique par la maigre information mise à notre disposition. 

Si ñn = 100, » = 20, on obtient pour € = 0,05 


p7 = 0,137, p* = 0,277. 


Ces valeurs ont été empruntées dans des tables spéciales donnant la solution 
numérique du problème des intervalles de confiance d’un nombre p pour 
divers n et » (cf. [8]). 

S. Autres méthodes de construction des intervalles de confiance. Dans 
ce numéro on étudiera quelques généralisations de la procédure de cons- 
truction des intervalles de confiance proposée plus haut. 


THÉORÈME 2. Supposons qu'il existe sur © X 2 une fonction G(6, x) 
telle que la distribution H(B) = P,(G(06, À) € B) ne dépende pas de 6. Sup- 
posons par ailleurs que G(6, x) est continue et monotone par rapport à 0 
pour tout x. 

Supposons enfin que y” et y* vérifient la relation H(y”,>7*D = 1 - 
— €. Dans ces conditions les statistiques 

07 = G7'O, À), 0* _ G”'*, À) si G(6, -)1, 
et 
8 = G7'G*,X), 0* = GO, X) si G(6, -N, 


sont les bornes d’un intervalle de confiance au seuil 1 — €. Ici G” (y, X) 
est la solution de l'équation G(6, X) = y. 


DÉMONSTRATION. La fonction G(6, x) étant monotone (on admet pour 
fixer les idées que G(8, x) est strictement croissante par rapport à 8), l’événe- 
ment {G7'(y", X) < 8 < G7'(y*, X)]} est confondu avec l'événement 
A = {y < G(6, X) < 7°}. 

Par définition de H(:-) et dy“ on a 
Po(07 < 0 < 8*) = Pe(G” (7, X) < 8 < G7'O*, X)) = 

= Pe(4) = Hy ,y'D = 1-Ee. < 

REMARQUE 1. Dans le théorème 1, pour G(84, X) on a envisagé la fonc- 
tion Gae(S). De plus, H = Uo:. 

REMARQUE 2. On peut considérer l’analogue asymptotique du théo- 


rème 2 en admettant l'existence d’une suite de fonctions G,(8, x) continues 
et monotones par rapport à 6, telles que 


Po(Gn(8, À) € B) — H(B), n + , 
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où H{(:-) ne dépend pas de 8. On obtient alors une méthode de construction 
des intervalles de confiance asymptotiques, généralisant la méthode de 
construction des intervalles de confiance asymptotiques à l’aide des estima- 
teurs asymptotiquement normaux développée au n° 3. 

Indiquons un autre procédé de choix de la fonction G(6, x) intervenant 
dans le théorème 2. 


THÉORÈME 3. Supposons que Fe(x) = Polx1 < x) ef que 

1) Fox) est continue par rapport à x pour tous les 0 € ©, 

2) Fe(x) est continue et monotone par rapport à 0 pour tout x fixe. Alors 
la fonction 


G(, x) = - Z In(Fo(x) 


vérifie les conditions du théorème 2. 
Si les nombres y* sont tels que 
de 
1 CR D « es _ 

Tr) x" 'e “dx = 1 €, (10) 
Le 
alors 0* = G7'(y*, X) sont les bornes d’un intervalle de confiance au 
seuil 1 — €. 


DÉMONSTRATION. Assurons-nous que les conditions du théorème 2 
sont remplies. Puisque Fe(xi) est uniformément distribuée sur [0, 1] d’après 
la condition 1), il vient —-InFo(x) € Pi et G(0, À) € F1,n. Autrement dit, 
P:(G(0,X)€ B) = Ti,n(B), etH = lin estindépendante de6. La monotonie 
et la continuité de G(8, x) pour tout x résultent de la condition 2). Par ailleurs, 
en vertu de (10) 


HG ,>°D = TinQy , y*D = l]l — € < 


On pourrait indiquer d’autres méthodes de construction des intervalles 
de confiance. Ceci étant, comme en théorie de l’estimation ponctuelle, il se 
pose aussitôt la question de savoir lequel des intervalles de confiance, si tant 
est qu’il en existe plusieurs, est le meilleur. Les diverses approches de cette 
question seront abordées dans le $ 3.8. Mais de l’exposé précédent il ressort 
que la recherche du meilleur intervalle de confiance présente beaucoup 
d’affinités avec celle de la meilleure estimation ponctuelle. Il est clair aussi 
que si l’on construit les intervalles de confiance à l’aide des estimateurs 
ponctuels, il faudra préférer les intervalles construits à l’aide des meilleurs 
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L'affinité des problèmes d’optimisation des estimations ponctuelle et par 
intervalle peut être illustrée sur l’exemple de la proposition suivante. 


THÉORÈME 4. Considérons un intervalle de confiance asymptotique 
]0”,80*[ au seuil 1 — € et supposons que la variable aléatoire 0* = (8* + 
+ 0” )/2 est un estimateur asymptotiquement normal et asymptotiquement 
central (cf. n° 2 du $ 25) ef que la quantité À = (0* — 0” )/2 est telle que 
ô = lim.infVnA ne dépende pas de X. Alors à > B/VI(6). 

Ceci exprime que la longueur de l’intervalle de confiance ]J97,8*[ne 
peut être sensiblement inférieure à 28/Vn1(8) , C'est-à-dire à la longueur de 
l'intervalle au seuil 1 — €, construit à l’aide de l’estimateur du maximum 
de vraisemblance Ô*. 

DÉMONSTRATION. Raïsonnons par l’absurde. Il existe une sous-suite 
{n’} de nombres tels que AVn’ —+ cB/ 1(0), c < 1. Comme 8* = 0* + 
+ À, il vient 


1 — e = lim Pe(9 < 0 < 0°) = lim Pe(6* — 6 < 4) = 


n'—®@ 


= lim Pe(8* — O\Vn' < cB/VI(6)) < 
< limPo(lô* — 6lVn < cB/VI(8)). (11) 


La dernière inégalité résulte de ce que l’estimateur du maximum de vraisem- 
blance 6* est asymptotiquement efficace dans la classe KÀ° des estimateurs 
asymptotiquement centraux (cf. théorème 25.4). Vu que le dernier membre 
de (11) est <1 — €e, on obtient une contradiction qui prouve le 
théorème. < 

6. Cas vectoriel. La notion d'intervalle de confiance se généralise, dans 
le cas d’un paramètre vectoriel 9 € R* à celle de région de confiance, ou 
d'ensemble de confiance. 

DÉFINITION 4. On dit qu’un sous-ensemble aléatoire *) 6* = O“(e, X) 
d’un espace de paramètres 6 est un ensemble de confiance au seuil 1 — €si 


P,(0° 3 0) > 1 — €. (12) 


Autrement dit, un ensemble de confiance au seuil 1 — € recouvre la valeur 
exacte inconnue de 8 avec une probabilité > 1 — €. 


*) Dans ce contexte on dira que l'ensemble 6°(e, À) est aléatoire si pour chaque f l’ensem- 
ble {X : r € O°(e, X)} est mesurable, et par suite, est définie la probabilité (12) (comparer avec 
le $ 3.8). 


18—4195 
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DÉFINITION S. On dit qu’un ensemble aléatoire 6* est un ensemble de 
confiance asymptotique au seuil 1 — e si X = [X+]h € Po et O* vérifie la 
relation 

lm.infPs(0* 3 0) > 1 —- €. 
nn 

Les ensembles de confiance « exacts », y compris les ensembles opti- 
maux, feront l’objet du $ 8 du chapitre suivant. 

Quant aux ensembles de confiance asymptotiques, ils admettent le 
même principe de construction. Grâce au théorème 4 nous pouvons envisa- 
ger immédiatement les ensembles de confiance construits à l’aide d’un esti- 
mateur du maximum de vraisemblance 6*. On sait que si les conditions 
(RR) sont remplies et si X € Ps, on a 


(0 — 0)Vn1'”?(0) & Dos. 
D'où 
n(ô* — 0)1(0)0* — 0)7 & Hi, 
n(ô* — 0)1(6*)(8* - 0)7 € H. 


Autrement dit, si hfiest le quantile d’ordre 1 — € de la distribution du x? 
à k degrés de liberté, alors 


lim Pe(n(0 — 0*)1(8*)(6 — 6%) < h)=1-e. (13) 


L'ensemble de confiance asymptotique 6* au seuil 1 — € que nous avons 
construit est un ellipsoïde de centre 0* et d’axes définis par la matrice 
n1(6*)/h.. Pour construire l’ensemble O* il n’est pas obligatoire de calculer 
la matrice /(0). Nous savons que si les conditions (RR) sont remplies et 
X € Po, alors 


L(X, 0) — L(X, 6) = 5 (0 — É*)Z(Ë*)(E — 6*)7. 


Donc, l’ellipsoide 6* défini dans (13) peut être représenté comme l’ensemble 
des valeurs 0 telles que 


L(X, 0) — L(X, 0*) > —h./2. 
Au $ 28 on a établi que Îla limite de la P4-probabilité de cette inégalité (cf. 
remarque 28.2) est égale à 1 —-€ 
Il s'ensuit en particulier que dans le cas scalaire les bornes 9 * de l’inter- 


valle de confiance asymptotique au seuil 1 — e peuvent être définies comme 
solutions de l’équation 


L(X, 8) — L(X, Ô*) = —h/2 = —f?/2. 
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$ 32. Distributions empiriques et intervalles de confiance exacts 
pour les lois normales 


De toutes les distributions énumérées dans le $ 2, la distribution nor- 
male est la plus fréquente dans les applications. Aussi dans ce paragraphe 
nous arrêterons-nous spécialement sur la construction d’intervalles de con- 
fiance exacts pour les paramètres « et o7 de la distribution &...:. 

1. dre exactes des statistiques x et S$. Soient X € o1 et 
= |cy] ( j = 1,2,..., n) une matrice orthogonale. 

Etudions la distribution du vecteur 7-dimensionnel Y=XC Y=(y1... 


ñn 
.…, Yn), Yi = 2 XjCji. 
= | 


LEMME 1. Si C est une matrice orthogonale, alors Ÿ € 01, c'est-à-dire 
que les coordonnées y1,..., yA Sont des variables aléatoires indépendantes, 
Yi € Po, ? = 2%: n: 


DÉMONSTRATION. Soit { = (f1,..., th). Dire que X est normal revient 
à dire que sa fonction caractéristique est égale à 


DL 7 
—— (mt 
2 


Ee'2”7 = € ; 


où m = |]m:iA est la matrice des moments d’ordre deux, égale ici à une 


matrice unité E telle que Et”? = È 13, 


La fonction caractéristique de la distribution conjointe de y1, ..., Yn 
(ou de la distribution du vecteur Ÿ) est 


JU) = Ed = Ex", 


En faisant le changement / = uC et en remarquant que CC? = E, on 
obtient 
}| a 
f(&) = EeinCrT — Er = be te eo 
Ceci exprime que Y admet la même fonction caractéristique, donc la 
même distribution que X. <Æ 


Prouvons maintenant une importante proposition pour la suite, appelée 
lemme de Fisher. 


18* 
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LEMME 2. Supposons toujours que X € o1, C est une matrice ortho- 
gonale et Y = (y1,..., yn) = AC. Alors la forme quadratique 


TO = D - À - ner 


ne dépend pas des variables aléatoires y1, . .., y, et suit une distribution 
du x? à n — r degrés de liberté : T(X) € H,-.. 


DÉMONSTRATION. Elle coule presque de source puisqu’en appliquant la 
transformation orthogonale C on obtient 


TO = D  - a + de 


Reste seulement à se servir du lemme 1. < 
Passons maintenant à l’étude de la distribution conjointe des statistiques 


sas 2-0 
is] 


THÉORÈME 1. Soit X € a. Alors 
1) (x — a)Vn/o E Bo. 
2) (nr ES 1)53/a E H, - 1, 


3) les variables aléatoires x et S$ sont indépendantes. 


DÉMONSTRATION. L'assertion 1 est évidente. Il est clair que sans nuire 
à la généralité on peut admettre que œ = 0,0 = 1. On a 


n 
(n — 1)S$ = 2x? - nx°. 
On remarquera que ic 


_ 1 1 
= —— X +... + 
Sarl L'-des 


et que le vecteur colonne à r7 dimensions QE (de norme 1) peut tou- 
1/vn 


jours être complété à une matrice orthogonale C. Alors y1 = Vn x est la 
première coordonnée de Y = XC et, en appliquant le lemme 2, on trouve 
que 


(mn — 18 = Lx - ÿ} € H-: 
= | 


et que les variables aléatoires (n — 1)S3 et y: = Vn x sont indépendan- 
tes. <Æ 
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COROLLAIRE 1. Soit X € &.. Alors t = (x — a)Vn/So € Th-1, 
autrement dit, t suit une loi de Student à n — 1 degrés de liberté. 


Ceci résulte du théorème 1 et de la représentation 
rp-&=oWn, 1 
o 


1  (n- 135 | 
n -1 œ 


Le théorème 1 d’indépendance de S et de x peut être renforcé. Il se 
trouve que x ne dépend pas du vecteur Æ — x (C'est-à-dire, ne dépend pas 
des termes S5). Ceci résulte de la normalité de x et X — x et de la non-cor- 
rélation des variables aléatoires x et x; — x qui découle de l'égalité (œ= 0) 


EG — x)x = L — 1)Exi - E(>x) | = 0. 
i=2 


2. Construction d’intervalles de confiance exacts pour les paramètres de 
la distribution normale. Envisageons d’abord deux situations simples. 

a) Supposons que X € &..° et que 0° est connue. On se propose de 
construire un intervalle de confiance correspondant au seuil 1 — € pour 
l'estimation de æ. La forme de l’intervalle de confiance découle dans ce cas 
de façon évidente des égalités 

P(I(X — a)Vn/ol < B) = P(-08/Vn < x — à < oB/Vn) = 1 - &, 
où comme précédemment 8 = À,/72, Po.1( — ©, AD) = 1 — 6, de sorte que 
œ*(e, X) = x + oB/Vn. 

On propose au lecteur d’appliquer à titre d'exercice la procédure plus 
formelle développée dans le théorème 31.2 et de se servir de la fonction G(a, 
X) = (x — a)Vn/a E o.1. 

b) Supposons æ connu. On demande de construire un intervalle de con- 
fiance au seuil 1 — € pour 0°. 


Posons ñ 
St = L S œ — a). 
im] 


Il est alors évident que nS?/0? € H, et par suite 
P(yr < nSf/0 < yr) = Hays yrD = P(nSi/y < à < nSi/yr). 
Les bornes de l’intervalle de confiance cherché seront donc 
(o)* = nSi/yr 
pour tous pr tels que H,(yx JY#D = 1 — €. 


< 
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Si l’on se sert de la procédure du théorème 31.2, il faut poser G(o, X)= 
= nS?/o € H. 

Traitons maintenant le cas où les paramètres æ et o° sont tous deux 
inconnus. 

c) Construisons un intervalle de confiance de 0” à l’aide de la statistique 
Gilo, À) = (n — 1)S$/0°. Le théorème 1 affirme que G1(0, X) € H,-1. 
Procédons ensuite comme dans le cas b). Les bornes de l’intervalle de con- 
fiance de & seront 


(o2)* = (n — 1)53/yX-1. 


Il est immédiat de voir que dans les cas b) et c) les statistiques G(o, 4) 
et G1(0, X) sont équidistribuées et par suite conduisent au même intervalle 
de confiance pour o° si seulement le nombre des observations de c) est supé- 
rieur d’une unité à celui de b). De façon plus imagée, dans le cas c) nous 
« perdons » une observation en raison de l’indétermination supplémentaire 
introduite par le paramètre inconnu a. Cette observation est en quelque 
sorte destinée à estimer le paramètre « fantôme » *) «. 

d) Construisons maintenant un intervalle de confiance pour «. Servons- 
nous de la statistique Gi(œ, X) = (x — a)Vn/So. Le corollaire du théorème 
1 nous donne 


Gi(a, X) (= T, 1. 


La fonction G1(œ, *) vérifiant les conditions du théorème 31.2, les rai- 
sonnements ultérieurs reprennent ad litteram ceux des cas a), b) et c). Les 
bornes de l'intervalle de confiance sont (pour simplifier on prendra un 
intervalle symétrique) 


a* = x + 7, So/Vn, 


*) Il est intéressant de noter que contrairement aux notions intuitives généralement admi- 
ses il est possible de construire au vu d’une seule observation x1 € #...? un intervalle de con- 
fiance de o° lorsque & est inconnu. Les raisonnements suivants qui le montrent nous ont été 
communiqués par L. Bolchev. 

Choisissons u tel que P(1/u) — D(—1/u) = «€, où (x) = $0:1(-— ©, xf). Alors 


P(o > ux:1]) = P(—o/u < x1 < o/u) = 
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où 7, se déduit de la relation 
P(lfn-al < 7) = Ta-1Q—r, 7) = 1 €. 


Remarquons que si So est proche de 0, l’intervalle de confiance sera plus 
large que celui de a), puisque 7, > B (cf. remarque du $ 2). Ceci s'explique 
encore par la présence du paramètre fantôme o qui est connu dans a). 

Les nombres y“ qui vérifient la relation 


P(GB, M El ,y'D=1-Ee, 
sont généralement donnés par des tables de statistique mathématique. 


Au $ 3.8 on montrera que les intervalles de confiance construits dans ce 
paragraphe sont dans un certain sens les meilleurs. 


CHAPITRE 3 
THÉORIE DES TESTS D’'HYPOTHÈSES 


Dans les $$ 1,2, 3et 11, on expose la théorie des tests de choix entre un nombre fini (en 
particulier entre deux) d’hypothèses simples. 

Les $$ 4 à 12 sont consacrés à la construction de tests optimaux de choix entre deux hypo- 
thèses multiples. On étudie en particulier les tests bayésiens et minimax ($$ 4, 9) et on applique 
les principes d’exhaustivité, d'absence de biais et d'’invariance à la construction des tests uni- 
formément les plus puissants. 

Dans les $$ 13 à 17, on développe les méthodes de construction des tests asymptotique- 
ment optimaux. 


$ 1. Test de choix entre un nombre fini d’hypothèses simples 


1. Position du problème. Notion de test statistique. Test le plus puis- 
sant. Dans ce chapitre il sera question de tester des hypothèses concernant 
une distribution P d’un échantillon X. Comme en théorie des estimations il 
n’y aurait pas de problème si la distribution P était connue. 

La prise d’une décision concernant l’acceptation ou le rejet d’une hypo- 
thèse donnée H doit se baser uniquement sur l’échantillon XEP donné et 
sur une éventuelle information a priori sur la distribution P. 

Donc, pour définir la procédure de prise de décision au vu d’un échan- 
tillon X, nous devons définir une application sur,ective de l’espace des 
- échantillons .7 ” sur l’ensemble des hypothèses envisagées. Cette applica- 
tion est généralement appelée test ou critère statistique. Des définitions 
exactes seront données plus bas pour diverses situations. 

Commençons par le problème le plus simple : le test de choix entre un 
nombre fini d’hypothèses simples. 

DÉFINITION 1. On appellera hypothèse simple toute hypothèse définis- 
sant de façon unique la distribution de l’échantillon X. 

Soient données r distributions P,, ..…, P, et supposons que X est issu 
de l’une d’elles. Le problème est de déterminer cette distribution P je = 1, 
2, …, r. Chacune des r hypothèses 


H;=IXEP; () 


sera simple et le problème consiste donc à décider entre r hypothèses sim- 
ples. | 
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De même que dans le chapitre 2, nous traiterons souvent dans ce chapi- 
tre le cas paramétrique où X suit une distribution P,e = [P,},.,- Si la 
RER (A,) est remplie, les hypothèses simples s’écriront sous la forme 

= (XEPs, }, où 8,, …, 6, sont des points fixes de 6. Le cas (1) peut aussi 
… traité comme un cas paramétrique avec un ensemble fini 6 = 
= {1,...,r). 

Ces considérations montrent qu’il n’y a aucune différence de principe 
entre l’estimation des paramètres et le test d’hypothèses: dans les deux cas 
il faut déterminer la valeur inconnue de 8. Il existe tout de même une légère 
distinction, à savoir que dans le test d’hypothèses les valeurs possibles de 8 
sont discrètes, et les méthodes liées à la comparaison, disons, des erreurs 
quadratiques moyennes, qui ont été développées dans le chapitre 2, ne pas- 
sent pas ici. Nous ferons appel à d’autres critères pour comparer les règles 
d'acceptation de telle ou telle hypothèse au vu d’un échantillon X. 

Le caractère discret de l’ensemble des valeurs possibles de 8 fait 
apparaître un nouvel élément, à savoir qu’il est désormais possible de 
exactement, avec une probabilité non nulle, la valeur inconnue 

0; (ou la distribution P,,), alors que dans les problèmes d’estimation de 
paramètres, la probabilité d’un tel événement était généralement nulle. 

DÉFINITION 2. On appelle test statistique de choix entre 7 hypothèses 
H,, .…, H, toute application surjective mesurable ô: 27—1{H,, … 


’ r)° 

En d’autres termes, ô(X) est une « variable » aléatoire prenant les 
valeurs H,, H,, …, H,: si ô(X) = H,, nous retenons l'hypothèse H, 
(c’est-à-dire que nous admettons que 0 = 8, dans le cas paramétrique). 

L'application ô(-) s’appelle aussi règle de décision ou fonction de déci- 
sion. Il est clair que donner la règle de décision équivaut à définir une parti- 
tion de l’espace 2°” en r ensembles boréliens disjoints 0,,Q,,...,0Q, sur 
lesquels sont acceptées respectivement les hypothèses H,, H,, … H.. 

La qualité d’un test est le plus souvent caractérisée par les probabilités 
de prise d’une fausse décision: 


a, = a;(6) = P,(X € 0,) = P,G(X) # H.). 


Le nombre a; représente la probabilité de rejeter l’hypothèse H; à tort. On 
l’appelle probabilité d'erreur ou risque de i-ième espèce du test 6. 

Si l’on a réussi à choisir un test 6 de telle sorte que tous les nombres a, 
soient petits, on admettra en vertu du principe fondamental mentionné 
dans le $ 2.31 qu’il est pratiquement impossible de commettre une erreur en 
une épreuve et l’on déclarera que l’hypothèse FH, est vraie si ô(X) = H,.Ce 
faisant, on se trompera dans a; = P,(@6(X) 4 H;) pour cent des cas si 
l'hypothèse H:; est vraie. 
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Il est certes souhaitable de tester des hypothèses de façon à rendre mini- 
males les probabilités de ces erreurs. Mais si la taille de l’échantillon X est 
donnée, il n’est pas possible de rendre les , simultanément petits. Tout ce 
qu’on peut faire, c’est fixer quelques uns d’entre eux et essayer de minimi- 
ser les autres. 

Nous sommes ainsi amenés à comparer des tests entre eux. Munissons 
l’ensemble des tests entre les hypothèses H,, .…, H, d’une relation d’ordre 
partiel. 

DÉFINITION 3. On dit qu’un test 6, est meilleur qu’un test à, si pour tous 
les i = 1,2, ..,r 


: &6,) < a,6:) 


et l’inégalité stricte est réalisée pour un ; au moins. 

Les tests à, et Ô, ne sont pas toujours comparables au sens de cette défi- 
nition. De la même façon il est impossible de comparer deux estimateurs 8} 
et 8; du point de vue de l’approche de la moyenne quadratique si l’on Drend 

EG” — 0) pour critère de qualité. Pour pouvoir comparer les tests, il faut 
restreindre l’ensemble des fonctions de décision. Introduisons à cet effet les 
classes 


Ka = B:ajô) =a;;j=1,2,...,r-— 1). 
Les classes Kay. _, Peuvent être munies, elles, d’une relation 
d’ordre portant sur a, : plus a, (ô) est petit, plus le test est meilleur. 
DÉFINITION d. Un test 8€ Ka …,a_ Sst dit le plus puissant dans la 
classe Ka, a_ , Si pour tout ô de cette classe 


æ,(60) < @, (6). 


On rappelle qu’on a fait une chose semblable au chapitre 2 à propos de 
la comparaison des estimateurs. Dans ce chapitre on a mis en évidence la 
classe K, des estimateurs à biais fixé. 

Il existe encore deux approches qui permettent d’ordonner l’ensemble 
des fonctions de décision à l’aide d’une caractéristique numérique: 
l’approche bayésienne et l’approche minimax. 

Avant de passer à la construction des tests les plus puissants dans les 
classes K4,, … a_, COnSidérons ces deux approches. 

2. Anproche bayésienne. Cette approche admet que la distribution P, 
de l’échantillon X a été choisie de façon aléatoire. Dans ce cas les hypothè- 
ses H; = (XEP,},j = 1, ...,r, sont des événements aléatoires dont nous 
désignerons les probabilités par 


Q(H,) = qÜ), 


$1) TEST DE CHOIX ENTRE UN NOMBRE FINI D'HYPOTHÈSES SIMPLES 283 


de sorte que Q est une distribution a priori sur l’ensemble des hypothèses 
{H,, …, H,) et qÜ), j = 1, .…, r, sont les probabilités a priori de ces 
hypothèses (comparer avec le $ 2.11). Il devient plus simple dans ces con- 
ditions de comparer des tests, puisque nous pouvons définir la probabilité 
moyenne d'erreur, ou risque moyen, a«Q{(6ô) du test 6 : 


a96)= À QUHP;EU) # H))= Ÿ qUX,E) @) 


J=1 j=1 


et par conséquent, ordonner totalement l’ensemble des tests par rapport à 
aq (). 

DÉFINITION 5. Le test ô = ô, qui minimise a, (6) s’appelle test bayésien 
associé à la distribution a priori Q. 

Soit remplie la condition (4,), c’est-à-dire que les distributions P, 
admettent des densités f(x) par rapport à une mesure o-finie u. La fonc- 


tion J,(X ) = II J;(x;) sera appelée comme précédemment fonction de 
{si 
vraisemblance. 

La fonction f(x) = y qU)J;(x) est la densité de la distribution de X 
par rapport à la mesure y”, et q()f;(x) la densité de la distribution con- 
jointe du couple (8, X) dans lequel le numéro 8 de l’hypothèse est choisi de 
façon aléatoire. 

Si donc est donné l’échantillon X, on peut, dans le cas bayésien, cons- 
truire une distribution a posteriori Q, des hypothèses H ; (la mesure À du 
$ 2.11 est ici une mesure cardinale) à l’aide de la formule de Bayes 


= = 1K)S,CX) 
QU) = QUE EE 


Ceci est la distribution conditionnelle de 8 par rapport à X. 
Par E on désignera l’espérance mathématique associée à la distribution 
P du couple (0, X). 


THÉORÈME 1. 1) Le risque a (6) de tout test à vérifie l'inégalité 
ao (ô) > 1 — E max gG1X). (4) 
J 


G) 


2) Pour qu'un test à = ÔQ soit bayésien pour une distribution a priori Q, 
il est nécessaire et suffisant que pour P-presque toutes les valeurs de X il 
vérifie les relations 


ô(X) = H, si q(kiX) = max qg(UlX). (S) 


L'égalité est réalisée dans (4) pour à = à,,. 
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Signalons que le second membre de (4) est indépendant de 6. 

DÉMONSTRATION. Soit donné un test 6. Considérons l’événement D, 
qui consiste en ce que le test ô conduise à prendre une fausse décision : 

D, = U (8 = j,ô(X) # Hj). 
Jui 

Il est alors évident que «,(ô) = P(D,) et la notation (2) est le résultat d’une 
moyennisation : d’abord par rapport à X pour 0 = /; et ensuite par rapport 
à 0. Nous pouvons écrire œQ, (ô) sous une autre forme: prendre la moyenne 
par rapport à 8 pour X fixe et ensuite par rapport à X : 


ag @) = | P(D;IX = x)f(x)u(dx) = 


= EP(D,IX) = E D) P(0 = j, ô(X) + H;1X). 
j=i 
Puisque ô(X) est mesurable par rapport à X, on a 
P(0 = j, ô(X) + H;1X) = TsoanPG = j|X) = 
= (1 -— Tcn=H11)401X). 
D'où : 
aq) = 1 — E >> OX Mon; > 1 — E max qUIX). 
j=i 

Ce qui prouve la première partie du théorème. 

La suffisance de la deuxième proposition du théorème découle de toute 
évidence de la première proposition, puisque la borne inférieure établie 
pour æQ(ô) est atteinte pour le test ô, défini dans (5). Il est évident que 
og) ne change pas lorsque ô4(X) varie sur un ensemble de 
P-probabilité nulle. 

La nécessité de la deuxième proposition se prouve de façon aussi sim- 
ple. En effet, supposons que 6 = ô, est un test bayésien et que ô(X) = 
= H,,q{(k1X) < q({lX) = max qÜIX) pour X € À, P(A) > 0. Alors 
pour le test 6, (X°) qui ne diffère de ô(X') que sur l’ensemble À : ô,(X) = 
= H, pour X € À, on obtient 


P(D, ; 4) = P(4)- E b a Xp uo=#) 4 | : 
J 
= P(4) — Elq(1X) ; A] < P(A) — Elq(kiX) ; A] = P(D, ; A); 
P(D;,) < P(D;) = P(D;0)- 


Nous avons obtenu une contradiction. <Æ 
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Signalons maintenant que la notation (5) ne définit pas entièrement le 
test 6, : elle n’indique pas clairement quelle hypothèse il faut retenir si 
deux valeurs ou plus de g(j!X) sont maximales. Il s’agit visiblement de 
définir la fonction ëg(%) sur les frontières 


= me 27:q(&)f,@) = max qU)f; x) 


des ensembles 
D=tre 2" :qUKix) > max US, x) (6) 


dans lesquels, en vertu de (5), il faut accepter l’hypothèse H, d’après le 
test 9 
Donc QQ est l’« intérieur » de la région 


QQ = fre D : ox) = H4) 


d’acceptation de l’hypothèse H, , et il nous faut, en plus de (6), déterminer 
les seuls points de l', qui appartiennent à NQ. Or des raisonnements précé- 
dents il ressort que ce problème peut être résolu de façon assez élémentaire: 
nous pouvons adjoindre les points de l, à n’importe lequel des domaines 
« adjacents » 09 ; ce faisant nous Gbtiendrons la même valeur de «Q(ô), 
puisque (5) aura | lieu. Plus exactement, si A CT, N..NT,etqueXe À, 

peu importe, en vertu du test bayésien, laquelle des hypothèses Hk,s-.…, 
H,, est acceptée. Nous pouvons même sé une décision de façon aléa- 
toire : choisir l’hypothèse H,, i = 1, …, /, avec la probabilité 


Pk;; S Px, = 1. La valeur de a, (ô) ne change pas. 
i=] 
Nous sommes conduits ici à une notion plus générale de test randomisé, 
qui est très utile. 
DÉFINITION 6. On appelle test randomisé entre les hypothèses H,, … 
, H, toute application surjective mesurable x : 2° — R(), où R(? est 


l’ensemble des vecteurs (x,, .… , x,), x; > 0, Ÿ x; = 


Un test randomisé associe à toutx e Z°” une distribution de probabili- 
tés xx) = (x,(x), … , x,(x)) sur l’ensemble {H,, … , H,} et la décision 
finale concernant l’acceptation de l’hypothèse est prise au hasard (indépen- 
damment de X une fois que les probabilités x;(X°) ont été définies). 

Un test ordinaire est visiblement un cas particulier d’un test randomisé 
lorsque toutes les probabilités +; sont nulles à l’exception d’une seule qui 
est égale à 1. De tels tests seront dits 70on randomisés ou déterministes. 

Le risque de i-ième espèce æ;,(x) d’un test randomisé se définit de façon 
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analogue : 
a;(x) = P;(de rejeter H;) = 1 — E;r,(X). 


Du point de vue bayésien la minimisation de 


aq(r) = D qÜ)a;(x) 


j=1 


se traite de façon tout à fait analogue. Si par 0 on désigne comme précé- 
demment le numéro d’une hypothèse choisie de façon aléatoire, de distri- 
bution a priori Q, en sorte que Q(8 = j) = q(j), alors 


aq(x) = 1- ) qÜ'E;r,(X) = 1 — Ex,(X) = 1 — EE(x,(X)1X) = 


j=1 


= ]1-E ) qUIX}r;(X) > 1 — E max gU1X). 
J=i 


Nous avons ainsi obtenu la même borne inférieure pour æQ (x) que dans 
le cas d’un test non randomisé. Ceci exprime qu’un élargissement de la 
classe des tests n’améliore pas ici la valeur de &,, (6). Bien plus, la plus petite 
valeur est atteinte sur un test non randomisé ô,,. Mais le nombre des tests 
randomisés bayésiens n°, c’est-à-dire des tests tels que ap(r°) = ao); 
sera bien plus élevé que celui des tests non randomisés, puisque sur 
l’ensemble 


oùT = Z"'\T, nous pouvons prendre pour (x) n’importe quel vec- 
teur du sous-ensemble R;,..,4x CR () des vecteurs x dont sont non nulles 


les seules coordonnées d’indices Æ,, .., &,. Il est évident que R, est com- 
posé d’un seul vecteur e, dont la k-ième coordonnée est égale à 1 et les 
autres à 0, et l’on doit poser 


(x) =e, pour ref. 


Puisque les relations ci-dessus sont, aux valeurs près de x %(x) sur un 
ensemble P-négligeable, nécessaires et suffisantes pour que 


ao(r°) = ag@6g) = 1 — E max gG1X), 


nous pouvons en plus du théorème 1 formuler la proposition suivante. 
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THÉORÈME lA. 1) Pour tout test randomisé, 
ao(x) > 1 — E max qgG1X). 
J 


2) Pour qu'un test x soit bayésien, il est nécessaire et suffisant que 
nQ(x)=e, si xeQ, (D 
TRIER, un SO XETe. 
pour P-presque toutes les valeurs de x. 


3) Pour tout g;, > 0,j = 1,...,r, ÿ 8; = 1, on a l'inégalité 


j=i 


at) = Y aUk;a)< À aUXI - 8). (8) 


J=1 j=1 


Si min g; > Det les f;(x) ne sont pas toutes confondues, c’est-à-dire qu'il 
J 


existe des valeurs k et j et un ensemble À, P(A) > 0, sur lequel f,(x) + 
£ J;(x), l'inégalité (8) est stricte. 


REMARQUE 1. De (8) il s’ensuit que 
ag(r°) & 1 — max q(j). (9) 


Le second membre est l’expression du risque d’un test qui conduit à choisir 
H,siq(Kk) = max qÜ) (ce test est bayésien dans la classe des tests indépen- 


dants de X). 

DÉMONSTRATION du théorème 1A. Nous avons déjà prouvé les deux 
premières propositions. Pour établir la dernière, il suffit de comparer le 
test bayésien 7° au test r°(X) = g = (g,, ., g,) qui est indépendant de X 
et pour lequel de toute évidence œ;(x°) = 1 — g,, 


agtr°) = Y qUXI - 8,) > ag?) 
j=i 


Si l'égalité est réalisée dans (8), le test x°(X) = g = const sera bayé- 
sien. D’après la deuxième proposition du théorème, ceci n’est possible que 
lorsque qg(11X) = … = g(rl X) P-presque partout. Ce qui à son tour n’est 
possible que si f,CX) = … = f,(X) P-presque partout, q(1) = … 
… = g(r). < 
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Ainsi, l’introduction des tests randomisés ne permet pas de diminuer le 
risque &Q, mais d’accroître le nombre des tests et notamment le nombre des 
tests bayésiens x%. Cette circonstance est parfois utile. 

Dans la suite, par test on entendra un test randomisé +. 

3. Approche minimax. Si dans l’approche bayésienne nous avons 
apprécié la qualité d’un test à l’aide de la moyenne a, (x) = à qÜa;(x), 
dorénavant nous allons comparer les valeurs maximales 


a(x) = max a;(x) = max aq(x). 


Il est évident que ceci permet aussi d’ordonner l’ensemble des tests. 
DÉFINITION 7. On dit qu’un test x = + est minimax Si 


a(x) = min a(r). 


La proposition suivante est identique au théorème 2.11.2. 


THÉORÈME 2. Supposons qu'il existe un test bayésien x (associé à une 
distribution a priori Q) tel que 


œ(x) = … = à, (x). (10) 
Alors + est un test minimax. 


_ DÉMONSTRATION. Désignons par g(j) les probabilités a priori associées 
à Q. Pour tout test x, on a alors 


a(r) > À 4U)a;(r) > Ÿ UC) = max a,(r) = a(r). < 


J=1 J=1 


La distribution Q = {g(j)} associée au test x est dite /a plus défavora- 
ble (cf. $ 2.11). Ceci est lié au fait que pour Q = Q 


max «Q(r°) = max min ag(r), 


de sorte que le test minimax (10) est le test bayésien de plus grand risque. 
La démonstration de ce fait figure dans le chapitre V. On y montre notam- 
ment qu’il existe toujours une distribution la plus défavorable et un test 
minimax. 

Signalons toutefois que contrairement au cas bayésien les tests 707 ran- 
domisés minimax n’existent pas toujours. En effet, les frontières l', des 
ensembles Q® (cf. (6)) sont de probabilité non nulle P, (XeT,) > Oet par 
suite, les œ, Ge ) peuvent varier par sauts lorsque Q varie continâment. Ceci 
exprime à cn tour que 7 — 1 équations œ,(ô4) = … = «,(Go)enr — 1 
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Fri 
inconnues g(1), …, qg(r — 1) (0 = |] — y au) peuvent ne pas 
PL | 
admettre de solution. Mais dans la classe des tests bayésiens randomisés, il 
existe toujours un test minimax. A titre d'illustration nous étudierons en 
détail cette question pour 7 = 2 dans le paragraphe suivant. 

Nous avons ainsi trouvé la forme explicite des tests bayésiens et avons 
établi qu’ils pouvaient être utilisés à la construction de tests minimax. Il 
s’avère qu’il est possible de construire de façon analogue les tests les plus 
puissants dans les classes K,,, a, introduites dans le n°1. 

4. Tests les plus puissants. La définition d’un test le plus puissant non 
randomisé a été donnée au n°1. Il est commode de généraliser cette défini- 
tion à la classe des tests randomisés. Supposons que K,,, ..« _, désigne, 
comme dans le n°1, la classe des tests randomisés de risques de j-ième 
espèce donnés, j = 1,...,r — 1: 


K = {r':a(r) = a; ;j = 1,...,r — 1). 


je cs. Xp] J 
DÉFINITION 8. Un test 76 € Ka, a, €St dit le plus puissant dans 
Ka, a,_, Si Pour tout f € K4,,....a,_, ON A 


| a,(ro) < a,(x). 


THÉORÈME 3. Supposons qu'il existe une distribution Q = {q(1), … 
.…, q(r))] telle que 


a;(r®) = |- E;r9(X) = @;, J=1,...,r—-1 (11) 


(en fait nous avons r — 1 équations enr — 1 inconnues q(1), .…, g(r — 1)). 


Le test bayésien x défini dans (6), (7) est alors le plus puissant dans la 


classe Ka, .…. a,_ 


DÉMONSTRATION. Par définition d’un test bayésien 
ag(r°) < aq(r). 
Ceci exprime que pour x € X,,, 


S qÜa(n) < Y qÜa, + g(rha, (x). 


j=1 j=1 


Or a;(x°) = à; pour j < r — 1, donc a,(x°) < a,(x). < 

Les équations (11) n’admettent pas toujours une solution dans la classe 
des tests non randomisés ô pour la même raison que dans la recherche des 
tests minimax. La situation est fondamentalement différente dans la classe 
des tests randomisés. Cette circonstance sera illustrée dans le paragraphe 
suivant. 
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Exhibons maintenant un exemple assez répandu de test entre un nom- 
bre fini d’hypothèses simples. 

EXEMPLE 1. Supposons que l’hypothèse H, exprime qu’un patient venu 
consulter son médecin est sain et H,, qu’il souffre d’une maladie 4, , k > 
> 2. La tâche du médecin est de choisir une hypothèse H, au vu des obser- 
vations (que l’on peut représenter sous forme d’un vecteur x, = (x,,, 
X12» +. Xy,) Qui est un échantillon multidimensionnel X de taille un). Les 
maladies À, sont fixées pour que les hypothèses H, soient simples et de ce 
fait définissent complètement la distribution de X. Si le médecin accepte 
l'hypothèse H,,k > 2, alors que FH, est vraie, il commet une erreur de pre- 
mière espèce. Si au contraire il reconnaît qu’un malade (H,) est sain (FH, )il 
commet une erreur de deuxième espèce. Il est clair que les « effets » de ces 
erreurs peuvent être fondamentalement différents. 

De ce qui précède il s’ensuit que pour construire la meilleure règle de 
décision, il faut connaître la distribution du vecteur des observations 
(Xi1» + X1,) pOur les personnes saines et pour les personnes atteintes des 
maladies À, (il faut disposer à cet effet d'importantes données statistiques 
des examens médicaux). Il va de soi que l’essentiel du problème réside dans 
le choix de s et des observations (x,,, x, .…., X,,), Ce qui dépend dans une 
grande mesure de l’art et de l’expérience du médecin. 

Si le vecteur (x,,, .…, X,,) est choisi assez correctement, les théorèmes 1, 
2 et 3 nous indiquent une voie directe d’algorithmisation du diagnostic des 
maladies. 


8 2. Test de choix entre deux hypothèses simples 


Dans ce paragraphe on s’arrêtera plus en détail sur le cas particulier où 
l’on éprouve r (= 2) hypothèses simples. 

Ces hypothèses jouent souvent un rôle non symétrique comme, disons, 
dans l’exemple 1.1. C’est pourquoi l’une de ces hypothèses, par exemple 
H,, est appelée hypothèse de base, les autres, hypothèses concurrentes où 
alternatives ou encore contre-hypothèses. Le risque de première espèce 
a (ô) d’un test à s’appelle aussi dans ce cas dimension du test et le nombre 
1 — æ,(6) niveau du test. Le nombre B(6) = 1 — æ,(ô) est dit puissance du 
test Ô. 

La région 9, C 2” d’acceptation de l’hypothèse H,, d’un test non ran- 
domisé à dans le cas où 7 = 2 s’appelle région critique. La probabilité 
P,(X € 9;) d’accès à cette région, lorsque H, est vraie, sera égale à la puis- 
sance B(ô) du test. D’où l’origine de la dénomination de « test le plus puis- 
sant » pour le test ô sur lequel B(ô) atteint son maximum pour un niveau 
donné. 

Signalons maintenant que pour 7 = 2 tout test, qu’il soit randomisé ou 
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non, peut être caractérisé par une fonction numérique. En effet, un test 
randomisé +(x) est entièrement défini par les valeurs de ses 7 coordonnées 
(x, (x), .…, x,(x)). Mais comme ÿ x;(x) = 1, il suffit dans le cas r = 2 de 
se donner une seule fonction, disons x,(x). Cette fonction définit la proba- 
bilité d’accepter l'hypothèse alternative H,. Nous la désignerons par +(x) 
et l’appellerons fonction critique du test x. Il est évident que pour les tests 


non randomisés, la fonction (x) ne prend que les valeurs 0 et 1 ; dans le 
cas général, O0 < (x) < 1. 


Le risque &, (x) du test x (ou ô) et sa puissance B(x) s’expriment en fonc- 
tion de x(x) de la manière suivante : 
aj(r) =E,r(X), Br) = 1 — &,(x) = E,;r(X). 
Désignons par Z le rapport de vraisemblance 
Z=2x)=/f,@)//,@) 
que nous étudierons pour les seules valeurs de x pour lesquelles il est défini, 
c’est-à-dire pour les x tels que f,(x) + f,(x) > 0. 
THÉORÈME 1. 1) Soit c = g(1)/q (2), où Q = (q(1), g(2)), g (2) = 1 -— 
— q(1), est une distribution a priori donnée. Alors le test x, , de fonction 
critique 
1 Si Z(x)>oc, 
fe pR)=S px) si Z2@)=c, (1) 
0 Si Zx)<c, 
est bayésien pour la distribution Q (x, , = x°) quelle que soit la fonction 
mesurable p(x), 0 < p(x) < 1. 
Les paramètres œ,(x, ,) et «;(x. ,) du test x. , vérifient l’inégalité 


2 2 
D qdÜa,(r, ,)< Y qÜX1 — 8;) (2) 


J=1 J=1 


pour tous 8; 2 0,8, + g: = 1. 

2) Pour tout e > Otel que P,(Z > 0) > € il existe un nombre c > Det 
une fonction p(x) = p = consttelsquex, ,eK, = {x :a;(x) =ejetx,, 
est le plus puissant dans K, . Les nombres c et p sont solutions de l'équation 


œ(r. ,) = E;,x, ,(4) mP(Z(X)>c)+pP,(Z(X)=c)=E. (3) 
De plus, la puissance B(x, ,) = 1 — œ(x, ,) du test x, , vérifie l'inégalité 


Br. ,)2 €. (4) 
19° 
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Si la relation f,(x) = f,(x) lu]-presque partout n'est pas réalisée, les 
inégalités (4) et (2) sont strictes pour O0 < q, < 1. 

Le test x, , minimise le risque de première espèce x, (x) dans la classe K 
des tests x de risque de deuxième espèce donné : K = {x : æ&,(x) = 
= aœ(r. p)- 

3) Il existe un nombre c > 0 et une fonction p(x) = p = const tels que 
le test x, , est minimax. Les nombres c et p se déduisent de l'équation 
œ(r, ,) = @(r., ,) Ou, ce qui est équivalent, de l'équation 


P,(Z(X) > c) + P,(ZCX) > c) + 
+ pIP,(Z(X) = c) + P,(Z(X) = c)] = 1. (5) 


Il est évident que si la P ,-distribution de Z (X') est continue, c’est-à-dire 
que P,(Z(X) = c) = 0 pour tous les c > 0, alors on peut poser p æ 1 ou 
p = 0 dans les deux dernières propositions du théorème. 

Remarquons encore que 


P,(Z(X) = c) = 


= f(x )u" (dx) = | 2 pn(de) = PAZ = 0), 
Z&)=c Zu)=c 


de sorte que la continuité sur ]0, œ{ de la P ,-distribution de Z entraîne celle 
de la P,-distribution de Z. 

Le test x, , basé sur le rapport de vraisemblance Z s'appelle test du rap- 
port de vraisemblance. 

Le théorème 1 montre que fous les tests optimaux sont des tests du rap- 
port de vraisemblance. 

La deuxième proposition du théorème 1 s’appelle /emme de Neyman- 
Pearson. Si la condition P,(Z > 0) > e n’est pas remplie dans ce théorème, 
c’est-à-dire si P,(Z = 0) = 1 — 6, < €, le test le plus puissant x(x) = 
= Î;z4)> 0 aura alors une puissance égale à 1 et un risque à < €. Si les sup- 
ports des distributions P, et P, sont disjoints, alors Z = 0 sur l’ensemble 
des x tels que f,(x) > Oet par suite, P,(Z > 0) = 0. Dans ce cas, les hypo- 
thèses A, et H, sont discernables au vu d’une seule observation avec des 
probabilités d’erreur nulles, i.e. sont discernables de façon déterministe. 

DÉMONSTRATION du théorème 1. La première proposition est une con- 
séquence directe du théorème 1.1A. 

Utilisons le théorème 1.3 pour prouver la deuxième. Montrons tout 
d’abord que l’équation (3) admet toujours une solution en c et p. Il est évi- 
dent que la fonction #(c) = P,(Z > c) est décroissante sur [0, œ[. La 
variable aléatoire Z est propre par rapport à la distribution P,, c’est-à-dire 
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que 
e(c) = P,(Z > c) = 


= | rev@<s | mr) = 7 PAZ > 0-0 
zZ&)>c Z&)>c 
lorsque c — æ. Vu que #(0) > € par hypothèse, il existe un c, € ]0, œf tel 
"ne ec —-02>e, PC) e. ©) 
Si dans (3) on pose c = c, et À, = g(c, — 0) — w(c,), on obtient 
(Xe, p) = (c,) + pA.. 


Il est évident qu’en vertu de (6) on peut toujours choisir un p € [0, 1] tel 
que *) y(c,) + pA = €. 

Nous pouvons désormais procéder comme dans la démonstration du 
théorème 1.3. Posons g(1) = qg, = c,/{(c, + 1) et figeons le p ME Alors 
letest x. , Sera un test bayésien associé à la distribution Q =(g,1-9g.), 
et dans fe même temps œ,(x..L) = €. Ceci exprime en vertu du théorème 


1.3 que x. ., est le plus puissant dans K'. 
Si r(x) = €, on obtient 
rEK, ar ,)<a()=l-e B(r.,)2e 


Ceci n’est autre que l’inégalité (2) ((1.8)) pour g, = €. Donc, si la relation 
f:@) = f,(x) lu]-presque partout n’est pas remplie, ces inégalités seront 
strictes. La proposition du théorème qui dit que &,(x) est minimisé par le 
test x, , dans la classe K = {x : œ,(x) = (x. ,)] résulte des raisonne- 
ments "ci-dessus et de la symétrie par rapport aux hypothèses H,, et H, de la 
position du problème dans la première proposition du théorème. 

Pour démontrer la troisième proposition du théorème 1, il faut se servir 
du théorème 1.2. A cet effet il nous faut vérifier seulement que l’équation 
œ1(xc ,) = @(x., ,) admet une solution en c et p. Cette équation peut être 
mise sous la forme 

rep) = 1- Ex, ,(X) 


€, P 
ou, ce qui est équivalent, sous la forme (5). La solubilité de cette équation 
s’établit exactement comme celle de l’équation (3). On remarquera seule- 
ment que toujours P,(Z > 0) + P,(Z > 0) > 1, puisque P,(Z > 0) = 
= | fuh"(dx) = 1. < 

/2&)>0 


*) Il est clair que, si #(c) est continue en €, , la résolution de (3) se ramène à la recherche 
du quantile d'ordre 1 — € de la distribution de Z. 
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Nous avons vu encore une fois que l’introduction des tests bayésiens 
randomisés a pour but d’assurer une variation « continue » des paramètres 
de ces tests (les valeurs possibles des risques des tests x, , recouvrent 
l’intervalle ]0, 1[ tout entier). L'absence d’une telle variation continue des 
paramètres, liée au fait que sur un ensemble de P ,-probabilité strictement 
positive est possible l’égalité f,(x) = cf,(x), constitue le princi- 
pal obstacle à la recherche de tests d’un niveau donné ou de tests minimax 
dans la classe des tests non randomisés. Cette situation prévaut aussi dans 
le cas d’un grand nombre d’hypothèses. 

Il est important de noter également que deux types de tests optimaux — 
les tests les plus puissants et les tests minimax — sont bayésiens pour telle 
ou telle distribution a priori. Il est aisé de constater aussi que la classe des 
tests les plus puissants est confondue dans un certain sens avec celle des 
tests bayésiens. Cette situation dans laquelle l’approche bayésienne sert de 
base au choix des tests optimaux prévaudra dans la suite. 

EXEMPLE 1. Considérons l’exemple 2 de l’Introduction. Les hypothèses 
H, et H, sont de la forme H, = {x,EF(x)}, H, = {x,eF(x — a)}, où F(x) 
est une fonction de répartition donnée, a, un nombre donné. Supposons 
que F(x) admet f (x) pour densité et que la distribution de la quantité aléa- 
toire f (x, — a)/f(x,) est continue. Le lemme de Neyman-Pearson (propo- 
sition 2 du théorème 1) nous dit que de tous les tests de niveau 1 — €, le test 


J (x; — a) . 
Î (x,) ‘ 
is] 
sera le plus puissant pour éprouver l'hypothèse FH, (l’objet est absent) con- 
tre l’hypothèse F7, (l’objet est présent). Le nombre c, se détermine à partir 


de la condition 
- JG; — a) = 
P(Y DE > ne, )= € 
im 


Pour les grands #7 on peut de toute évidence se servir du théorème limite 
central pour calculer cette probabilité. 


$ 3*. Deux approches asymptotiques de calcul des tests. 
Comparaison numérique 


1. Remarques préliminaires. Aux $$ 1 et 2 nous avons trouvé la forme 
des tests optimaux entre hypothèses simples. Le terme « calcul des tests » 
désignera le-calcul des paramètres caractérisant le test. Dans le problème du 
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test le plus puissant pour r = 2, il s’agit de trouver les quantités c et p pour 
e > 0 donné et de déterminer le risque de deuxième espèce æ,(r.,, ,) OU, ce 
qui est équivalent, la puissance du test, B(x.,.,) = 1 — œ2(re, p). On peut 
envisager ce problème sous un angle différent. Nous avons vu que pour 7 = 
= 2 tous les tests optimaux sont de la forme des fonctions x, , représentées 
dans (2.1). Soit donné un test x. ,. Comment déterminer ses risques 
a;(x. 2) ? 

Cette question se pose aussi pour 7 > 2 pour le test Gi. 7), mais dans ce 
paragraphe on se limitera, par souci de simplicité, seulement au cas de deux 
hypothèses simples. 

On développe plus bas les approches asymptotiques qui permettent de 
résoudre approximativement (pour de grands n) ces problèmes. Des appro- 
ches analogues peuvent être utilisées pour le calcul des tests envisagés dans 
la suite. 

Soit donné un test (2.1). Supposons pour simplifier que la distribution 
de Z(X) est continue, de sorte que nous pouvons poser p = 1.Letest (2.1) 
(qui sera désigné par à.) devient alors non randomisé, et il nous faut calcu- 


ler 
X 
æ(6.) =P, rte c). (1) 
: f2(X) ) 
(,.) = P <c|. 
2 2 (x) c 


Puisque f,(X) = II J;(x;), l'événement figurant sous le signe de la proba- 
im] 


bilité dans (1) peut être mis sous la forme 


+: A) 
In > he, 
à J; (x; ) 7 : 


où les termes 
in À 20%) 
Mi = 
ÿ” 1%) | 
sont visiblement des variables aléatoires indépendantes équidistribuées 


dans chacun des cas XE P,,j = 1, 2: 
Le problème se ramène donc à l’étude des distributions des sommes 


ÿ 1; des variables aléatoires n;. 
is] 
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On admettra dans la suite que la taille 7 de l’échantillon X croît indéfi- 
niment. Ceci étant, par test on entendra en fait une suite de tests définis 
pour chaque 7 (nous avons utilisé cette convention pour les estimateurs 
dans le chapitre 2). 

2. Hypothèses fixes. Nous admettrons dans ce numéro que les distribu- 
tions P, sont fixes, c’est-à-dire ne dépendent pas de la taille 7 — œ de 
l'échantillon X,-= [X, ],. Soit à calculer un test le plus puissant de niveau 
fixé 1 — e On a 


En = -a= [60 1 2 a(dx) = —p1@P;, P;) < 0, 
1 (X 


fx) 
f(x) 


où p, est la distance de Kullback-Leibler (cf. $ 2.21). 
Ceci exprime en vertu de la loi des grands nombres que la P.- 


distribution de L 7; Sera concentrée au voisinage du point — a, et la 


En, =b= (0) In 209 ,(dx) = p1@2, P;) > 0, 


im] 
P,-distribution, au voisinage du point b. Et cette « distinction » des distri- 
butions sera la meilleure au sens du lemme de Neyman-Pearson. Posons 
97 = V;n, et supposons que 07 < œ. Alors 


6)=P(V n>me)- 
(x » G,+a)> PER C2) 


Prenons pour c = c(n) une suite quelconque telle que 


Inc + an =). 
o,Vn 

où À, est comme toujours le quantile d’ordre 1 — € de la distribution nor- 
male. De (2) et du théorème limite central il vient alors que 


G) 


æ(6.) — 1-8 (TT) - 


o,vn 
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DÉFINITION 1. Le test x qui vérifie la relation 
lim œ,(x) = lim E;r(X) = € 


s'appelle test de niveau asymptotique 1 — €. 

Donc, pour 

Inc= -an +),0,vn + o(vn) (4) 

le test à. sera de niveau asymptotique 1 — €. 

La relation (4) peut être traitée comme la solution approchée de l’équa- 
tion pour un nombre c, tel que œ,(ô. ) = €. 

Posons pour fixer les idées 1n c = —an + À,o,Vn et déterminons pour 
la valeur c choisie le comportement asymptotique du risque de deuxième 


espèce 


269 = P;( Y° ni < me)=r,(Y 7, < —an + No Vr ) _ 
1-1 ii 


_ 1 D, __G@+b)n , Xo 
Es CA . (1; — b) < ne 0: + = ): 
is] 


(a+b)Vn , ko 


€ 


() 


Vu que — — — © Jorsque 7 — , le théorème limite 


2 02 
central nous dit seulement que æ,(6,) — O. 

Le calcul du comportement asymptotique exact du second memnbre de 
(S) nous conduit au calcul des probabilités des grands écarts des sommes de 
variables aléatoires n;. 

Citons les résultats relatifs aux probabilités des Srands écarts, dévelop- 
pés dans le $ S du chap. 7 [11]. Soit à calculer le comportement asymptoti- 


que de P (S £,> x) lorsque ñn — © et x — œ, où £; sont des variables 


indépendantes équidistribuées. Supposons que la distribution de £; admet 
une composante absolument continue et que 


YA) = Eee < © 
pour certains À > 0. Supposons par ailleurs que 
À, = Sup {À : YN) < >}, 


A(@) = —inf {ax + In YO) ” 


et que À(œ) est la valeur de À qui réalise inf {-). 
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On a alors la proposition suivante. (Cf. théorèmes 9, 10 du $ 5 du chap. 
7 [11]. Les conditions VE; = 1, E£, = O0 de ces théorèmes n’ont pas 
d’importance.) 


THÉORÈME 1. Supposons que - — ©, de sorte que 


_— nEë, 
n 


AUS) 
As) 


, x 
im,sup— < a, = 
n—œ nl 


Alors l'équation pour le point (a) 
œÿ(N) = Y'(À) (7) 


admet une solution unique pour à < a, et 


1 
10 ire “}e one °P rA@), @) 


où 
2 ” ÿ "(A()) «32 
on 


R 
SIX 


Par ailleurs, 
A(Ë£,) = 0, A’(œ) = (a), 


, | AG) 
A = À © 
DER O = TE) - ayac) 


Revenons maintenant au calcul du comportement asymptotique de la 
quantité æœ,(ô,) définie dans (5) et qui est égale à 
P.(-Z 7, > an - y) = P(Z (— 7, + b) > (a + bin — »vn) 
im] 


pour y = À,0,. Pour pouvoir appliquer le théorème cité, il faut poser 


In 10) 
ML)! 


On obtient alors pour 0 < À < 1 
VO) = Be = [LOGE AG) = : 
= SAGE) < ([ricoutar)) (Fcoutar) ë 


E = —1,= = an — yVn. 
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Il s’ensuit également que ÿ(X) sera finie dans un voisinage du point 


À = 1si 
[AG @)/x)) Hdx) < © (9) 
pour un y > 0. D’autre part, l’équation pour le point À(œ) sera de la forme 
ÿ'(N) 
A ON 
ou 
VA) = PAT G)/f, 6 In ne a(dx) = 


— PAU C) (10) 


f(x) 


f.G) u(dx), alors (10) sera vérifiée 


Sia=a=p,(P,,P;) = POLE 
pour À = 1. Ceci exprime que 
X(a) = 1,  yÿ(XG@)) = ÿ(1) = 
D'où il vient 
A(a) = aX(a) — In ÿ(\(a)) = a, 


L'AG) = (1) = [rc (2e) u(dx), 
ce) = b (1) = a? = 07, 
A'(a)=A(@)=1, A’(a) = o;°. 


Les conditions du théorème 1 seront réunies si 
JG ] X1) 


1) la P.,-distribution de In -——— . 
2% 


admet une composante absolument 


continue ; 


2) (QU: @)/f,(x)) u(dx) < œ pour un y > 0. 
Vu que dans notre cas les fonctions o(æœ), A(œ), À ”’ (æœ) sont continues au 
voisinage du point æ = a et que a = x/n = a — y/Vn, on trouve que 


_ y? 1 
A(a) = a rtztc() 


On peut désormais formuler le corollaire suivant du théorème cité. 


COROLLAIRE I. pr que la condition (9) est remplie et que la 
JG 


P.-distribution de in ———— 
fi) 


admet une composante absolument continue. 
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Pour n — ©, on a alors 


æ;(ô,.) = P;(— D} 1n,> an — yVn) ._ 


t= 1 


5: 
_ —— exp {—na + yVn — y?/(20?)} = 
PR Er p | } y*/(20Ÿ)] 
I 
= —— exp {-np,(P,,P,) + À,o,Vn — À2/2]. 11 
Don Ut en | js. 


Donc, «;,(6,.) décroît exponentiellement *) lorsque 7 — co. 

Il est immédiat de voir que si l’on fixe c dans (1), les deux probabilités 
æ,(6,) et æ,(6,.) décroîtront exponentiellement, de même que a, (64) pour 
toute Q fixe. 

Comme 


f(x) 
1 (X) 


min YA) = min ÿ(1 — X), 


À 
E,e“" = [160 ) #G@x) = ÿ(1 — À), 


les risques a, (ô.) et æ,(6,.) décroîtront avec la même vitesse (la dépendance 
par rapport à 7 sera la même). Ceci exprime que le test minimax sera asso- 
cié à un certain c fixe dont on peut trouver sans peine une valeur approchée 
en résolvant l’équation æ,(ô.) = æ,(6,.) et en effectuant une analyse asymp- 
totique du second membre de (8) pour æ = c/n,n — ©. 


*) Nous obtenons incidemment la possibilité de donner encore une définition de la dis- 
tance de Kullback-Leibler 


.… 1 se 
»,®,,P;) = ri In a;(ô,.) = Le : ul In æ,(6). 


Signalons à ce propos que la P,-probabilité que la fi onction de rfpartition empirique F : tombe 
dans un voisinage de la fonction de répartition F, de P, adme le même ordre de petitesse que 
exp |—n0,(P,.P,)}. Plus exactement, si à = ô(n) — 0 assez icntement, on a 


1 
— lim — In P,(sup LF? (x) — F,(x)l < 6) = p,(P,,P.) (12) 


n-œ nn 


(théorème de Sanov). Donc, la distance pb ,(P,,P,) revêt une importante signification probabi- 
liste. Le lecteur peut établir la relation (12) à l’aide du théorème 6, $ 2 chap. V dans [11], en 
surmontant des difficultés insignifiantes. 
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L’approximation exponentielle (11) agit suffisamment bien pour les 
grands 7 si seulement l’écart normé 
x+nE,n vVn 
Re ne : P.) + : P = 
o,Vn ,CP, 2) p1@P; 1)) 


2 d2 


A«0) 


(13) 


est assez grand (cf. énoncé du théorème). 

Dans les problèmes d’application où le nombre n est de l’ordre de 100, 
cette condition est remplie assez rarement et la valeur (13) est souvent voi- 
sine de 1. Ceci complique l’usage de la méthode de calcul de æ,(6,.) décrite 
et correspond à la situation où æ,(6,) et æ,(ô,) ne sont pas très petits (de 
l’ordre de 0,1 par exemple). Dans le même temps, des valeurs de nr de 
l’ordre de 100 suffisent pour appliquer avec succès le théorème limite cen- 
tral dans la zone des « écarts normaux ». 

Donc, le problème qui nous préoccupe est de savoir quand pouvons- 
nous nous servir des approximations normales 


- nc—-n7E,n 
seen (Ÿ nove)er-e(E) 


ie] (14) 


: nc—-n"E 
a(6,) = r.(Y 1 <in c) = (en) 


im 


pour calculer æ,(ô,.) et æœ,(à, ). 

On peut établir les formules (14) par une autre méthode conjecturant la 
proximité des hypothèses A, et H,.. 

3. Hypothèses voisines. On envisagera un échantillon X dans un schéma 
de séries et on admettra que les distributions P, et P, dépendent de nr de 
telle sorte que 


p,®P,,P;) +p,(P,,P,)—0 (15) 


lorsque 7 — ©, et la suite (13) converge vers une limite finie strictement 
positive. 

Pour alléger les raisonnements et les rendre utiles pour la suite, on se 
bornera ici au cas paramétrique où XEP,, 


H,={6=-6,], H,={0=0.) 


et la famille {P,] satisfait les conditions de régularité (RR) (cf. $ 2.24). 
Faisons tout d’abord quelques remarques formelles pour éclairer le 
fond du problème. Nous envisageons des hypothèses voisines, c’est-à-dire 
que nous supposons que 0, = 8, + 6, où à est petit. Le logarithme du rap- 
port de vraisemblance sur lequel est construit un test le plus puissant est de 
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la forme *) 


200 ôL'(X,06). (16) 


La statistique U = L'”(X, 8), la principale partie de (16), s’appelle parfois 
contribution efficace. Si l'hypothèse H, est vraie, on a 


E, U = 0, V,U = nl(6,). 
Comme 
L'(X,0,) — L'(X,08,) — ôL "(X, 8;), E,,L (4, 0,) = —n1(8;), 
il vient 
E,,U _ ônI(;) — ÔnI(6.), 
V,U — n1(6,) — nI(6,). 


Ce qui exprime que les distributions de U seront distinctes sous les hypothè- 
ses H, et H, et pour de grands n si seulement la quantité E; U — E; U — 


— ÔnI(8,) est sensiblement plus grande ou comparable à VW, U — VnI(6.,). 
En d’autres termes, on doit avoir l’égalité ôn = vVn,v # 0, ou, ce qui est 
équivalent, ô = v/Vn. 

Passons à un exposé plus rigoureux et supposons que 


0, =60, +v/vn, (17) 
où les quantités 8, et v seront supposées fixes. 
Suivant les notations du chapitre 2 posons 


. Je +1(4) _- U 
Z;(t) = 0 , Ÿ(v) = InZ, (5): 


Alors 


OS 
D 0 Y,(—v). (18) 


im] 


Le théorème 2.29.3 nous donne pour X € Ps, 


HG) = Eu — > 021) + e,), (19) 


*) Le symbole = exprime ici l’équivalence asymptotique pour 5 — 0. 


$3] DEUX APPROCHES ASYMPTOTIQUES DE CALCUL DES TESTS 303 


OÙ €, = 0,t£,171/2(0,) & &,,. De façon analogue, pour X € P,, on a 
1 


| 
oué Y,(-—v) = Eu + 2 v?(1(6;) + €,), 
oùe, 7 0,8,17V20,) € &o 


Comme 7(9,) — J(6,), on trouve que si l’hypothèse H;, j = 1, 2, est 
vraie, 


- 2 
ÿ 1, = ElulVT@,) + (- 1H = 1@), E € dou 
im] 
Ceci exprime que le théorème 2.29.3 entraîne le 


COROLLAIRE 2. Soient remplies les conditions (RR } et (17). Pour tout c 
fixe, on a alors les formules (14) ou, de façon plus exacte, 


uv? 
7 I@)+ine 


a.(ô.) = P >inc}-1-D{——— |), 
soi (È “ ) ( [ol VTG:) 
. (20) 
2 
n _ 7 161) + nc 
a)(Ô.) = P A St à 
Ge) Fe, (Y L ) ( lu! VT@:) ) 
is] 
DÉFINITION 2. Les tests x, et x, sont dits asympiotiquement équivalents 
si 
lim.sup la;(xr;) — a;(x,)l = 0, j = 1,2. 


Un test + s’appelle asymptotiquement le plus puissant s’il est asymptoti- 
quement équivalent à un test le plus puissant. 

Vu que £, = L'(X, 8,)n-!”? dans les représentations (18) et (19), on 
déduit de ces dernières que le test à de région critique 


L'(X, 8) y 4= v21@) + 21nc 
AG) 2lvl V16,) 


(le signe de v est important ici), aura les mêmes valeurs limites æ;(6) que le 
test Ô_ et par suite sera asymptotiquement le plus puissant. 
Par ailleurs, en vertu des résultats du $ 2.29, 


£, = L'(X,6,)/Vn = @° — 6,)Vn1(@,)A + e,(CX, 8,)), 
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e,(X, 0) F, 0. D'où il vient que le test de région critique 
i 


v(@* — 0,)Vn1(6,) > vd (21) 


est aussi asymptotiquement le plus puissant. 

Pour obtenir un test à, le plus puissant de niveau asymptotique 1 — €, il 
suffit de poser d = À, dans (20). Le risque de deuxième espèce æ,(6,.) con- 
verge vers b(— vVI(6,) + À). 

Pour c = 1, les deux limites de (20) prennent la même valeur 


lim a;(.) = (— vVI(8,) /2). 


Dans ce cas il est naturel d’appeler le test ô_. (comparer avec le théorème 1.2) 
test asymptiotiquement minimax. 

4. Comparaison des approches asymptotiques. Exemple numérique. 
Dans les numéros 2 et 3 nous avons examiné deux approches asymptotiques 
dont l’usage était justifié dans des conditions définies et qui permettent de 
déterminer les valeurs approchées des risques de première et de deuxième 
espèce d’un test le plus puissant *). Ces formules sont données par (3) et 
(11) pour des hypothèses fixes et par (14) et (20) pour des hypothèses voisi- 
nes. Les formules (11) et (20) ont été acquises à l’aide de (8) et de (14). C’est 
pourquoi on accordera si possible la préférence à ces dernières. 

Nous avons déjà signalé que si æ, (ô) et æ,(6) étaient petits (de l’ordre de 
0,01 et moins), il était plus payant d’utiliser l’approche liée aux hypothèses 
fixes. En effet, il importe d’avoir une approximation suffisamment bonne 
qui est assurée par les formules (8), mais pas par le théorème limite central. 
Si &,(6) et æ,(ô) sont de l’ordre de 0,1 (disons > 0,1), on peut recomman- 
der la deuxième approche, en considérant la deuxième hypothèse H, = 

= (0 = 8,} comme un élément de la suite d’hypothèses voisines H, , = 

= {0 = 8, + v/Vn}, où il faut poser de toute évidence v = Vn(8, — 6.) 
pour 6, et 6, donnés. Vu que les valeurs prévisibles de æ,(ô) et de æ,(6) ne 


sont pas très petites, la valeur absolue de u/V7(8,) ne doit pas être élevée. 

EXEMPLE 1. Considérons maintenant un exemple numérique illustrant 
dans une certaine mesure le lien existant entre les deux méthodes d’approxi- 
mation proposées ci-dessus. 


*) Signalons que parallèlement aux deux approches proposées on peut envisager tout un 
spectre de cas intermédiaires que, dans le langage paramétrique, on peut représenter sous la 
forme (cf. (17))9, = 9, +zn° 7,0 < y < 1/2. Les hypothèses voisines de cette nature présen- 
tent de l’intérêt lorsqu'il faut choisir les formules d’approximation décrivant le mieux la situa- 
tion étudiée. 
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Soit À E T', ,, c’est-à-dire que la densité des x; est 
fox) — 8e x, X > 0, 


et supposons que l’hypothèse de base FH, est de la forme H, = {8 = 1}. Les 
hypothèses alternatives seront les hypothèses simples H{1 = {8 = 0,5}, 
HS) = {6 = 0,8}, HS) = {6 = 0,9). 

On éprouve l’hypothèse H, contre l’une des hypothèses HŸ), j = 1,2,3 
au vu de l’échantillon X. Donc 8, = 1, quant à 0, il peut prendre trois 
valeurs: 0,5; 0,8 et 0,9, dont les deux dernières seront traitées comme cor- 
respondant à des hypothèses voisines de H,. Déterminons les tests pour des 
échantillons de taille 7 = 30, 100, 300, 1000. 


On a 
: Jo, (x;) . 
7, = In a.) = In 0, — (8, —1)x,, (22) 
[(6,,x;) = 1 — x,, (23) 
0 = 1/x. 


D'où il découle que le test ô, le plus puissant, ainsi que les deux tests asymp- 
totiquement les plus puissants envisagés plus haut (de régions critiques 


D l'(x,0,) < dietô* — 6, < d,/(n1(@6,)), d, = dVn1@,)) seront de la 
forme ô (X) = HŸ) si 


) (& — 1)> d.. (24) 


i=1 


Si X € F, , (hypothèse H,), on a 
E,x, = 1,V,x, = 1 =7(1) = E,f/'G,, DF. 


Si donc l’on pose d, = 2Vn, il vient (comparer avec (14)) 


l n 
= P, (% D @— 1) > 2) — 1 — &(2) = 0,023 (25) 
=] 


lorsque n — œ. Puisque Ÿ 7, =n1n0, + (1—6,) ÿ x;, on déduit que 


im] is] 


20—4195 
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dans (14) (ou dans (20)) In c est relié à d, par la relation 


Nous citons plus bas trois tableaux dans chacun desquels d, est supposé 
choisi de telle sorte que soit réalisée (25) (c’est-à-dire que d, = 2Vn). Dans le 
premier tableau, on compare les vraies valeurs de æ,(ô,) à l’approximation 
(25). Dans le deuxième, on donne les vraies valeurs de æ,(ô,) et les valeurs 
approchées calculées à l’aide des formules des grands écarts (8). Dans le 
troisième enfin, on compare les vraies valeurs de «,(6.) aux valeurs appro- 
chées obtenues par les formules des hypothèses voisines (14). A noter que 
l’on se sert des approximations (8) et (14) et non pas des deuxièmes 
approximations (11) et (20) qui sont entachées d’erreurs supplémentaires. 
Les calculs sont développés plus bas. 

Les nombres des tableaux 1, 2 et 3 sont donnés au centième près. 


Tableau 1. Valeurs de æ,(ô ). 
Le premier rang représente les valeurs exactes, le deuxième, les valeurs approchées (14) 


Tableau 2. Valeurs de æ, (6 ). 


Le premier rang représente les vraies valeurs, le deuxième, les valeurs approchées (8) ou (26) 
(les grands écarts) 


La comparaison des tableaux 2 et 3 montre qu’en vertu des remarques fai- 
tes plus haut, l’approximation basée sur les grands écarts agit mieux dans la 
partie supérieure droite du tableau (où (9, — 8,)Vn = (1 — 8,)Vn > 3), et 
l’approximation basée sur les hypothèses voisines, dans la partie inférieure 
gauche (où (1 — 8,)Vn < 3). Les « blancs » expriment que l’utilisation de 
la méthode considérée n’a pas de sens. Dans le tableau 2 par exemple, 
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l’approximation (8) ne passe pas lorsque æ,(6,) > 0,1. Le calcul de œ,(ô,), 
lorsqu’il est inférieur, disons, à 107, présente rarement un intérêt prati- 
que. Les très petites valeurs de «,(6,.) dans le tableau 2 pour 0, = 0,5etn = 
— 300 et 1000 ont été calculées uniquement pour comparer les résultats. 


Tableau 3. Valeurs de æ,(Ô ). 


Le premier rang représente les vraies valeurs, le deuxième, les approximations (14) 
(les hypothèses voisines) 


Pour achever la discussion de ces tableaux, il nous reste à dire comment 
ont été calculées les vraies valeurs de a;(ô.), i = 1, 2, et en quoi se transfor- 
ment les approximations (8) et (14) dans notre cas. 


On a 
{mi 
Comme Es,x;, = 1/8,, Vo,x;, = 1/02, l’approximation normale (14) de 


æ(6,.) sera de la forme 


6 1 
b ( LC _ 5) + a |) = (8, — 1)Vn + 28,). 


Considérons maintenant la formule (8) dans laquelle il faut poser £, = 


= X,X= -n- 2Vn. La condition du théorème 1 
x—nE£, _ —n- 2Vn + n/6, 1 — 6, 
= = V — 2 — 
-S SET HO n ( | ) O0 


est remplie. Par ailleurs, 


= —ÀX — x —06,x ô; 
vO = E,e = 0 [e D PA 
0 


20° 
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AY) 
AN = ©, @ — 0, 
À T ae ÿA) 
a= nt È 
n Vn ‘ 
Puisque lim œ = —1 < 0, la condition lim. sup < «a, est également 
satisfaite. L’équation (7) s’écrit 
ad, : 0, 
À + 6; (À + 6) 
et sa solution est A(œ) = — 1/a — 8,. D’où 


A(œ) = —In (—a0;,) — 1 — ,, o?(œ) = 1/)1°(a) = a’. 


En vertu de (8) on obtient donc 


a.) = Ps, (S E, > c) =P,, (S (x, — 1) < n ) _ 


{= 
1 
(+ 08,)V2rn 
En admettant que œ = —1 — 2/Vn, on obtient les formules qui ont servi à 
calculer les valeurs de æ«,(ô,) dans le tableau 2 (deuxième rang). 


Signalons pour la comparaison que le second membre de (11) se trans- 
forme en l’expression 


exp {n{[in (—-a0,) + 1 + a0,]}. (26) 


| 
TNT exp {n [In 8, + 1 — 8,] + 2(1 — 6,)Vn — 2) (27) 
que l’on peut déduire de (26) en y posant &« = —1 — 2/Vn et en limitant le 
développement en série aux termes d’ordre < 1/Vn. 

Le premier facteur du dénominateur de (26) qui est égal à 
d(æ)lA(æ)l = 1 + a, = 1 — 0, — 20,/Vn se transforme dans (27) en o, = 
= 1 — 0,. Si 8, est voisin de 1, l’erreur relative liée au terme correctif 
— 20,/Vn peut être considérable. Par exemple, pour 8, = 0,8 et n = 100, 
on obtient 28,/Vn = 0,16, o, = 1 — 8, = 0,2, o(œ)lA(a)l = 0,2 — 0,16 = 
= 0,04, de sorte que le premier facteur de (27) est de S fois (!) supérieur à 
celui de (26). Cet exemple montre que lorsque les hypothèses sont voisines 
et le facteur ©, de (11), petit, il faut manipuler les approximations (11) (ou 
(27)) avec beaucoup de précautions. 

Pour calculer les vraies valeurs de æ,;(ô,), on s’est servi du fait suivant. 
Supposons que 7() est un processus de renouvellement (cf. [11]) pour une 
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promenade de sauts x,, X;, .… : 
k 
n(t) = min Ê - y x, > 1} 
im] 


Six;,e FT, ,, alors, comme indiqué au $ 4 du chap. 13, [11], le processus 
£(t) = nt) — 1 est pour { > 0 un processus de Poisson de paramètre 6, 
c’est-à-dire que 
a 61) 


PAGU)—H=Ak)=e 


Remarquons maintenant que D X, > c) = fn(t) < n}, donc 
im) 


“ k 
(Y >1)= + en. (28) 


kK=0 


Pour {t = n + 2Vn, on a donc 


n-) 


TELTO) x>1)- à et. 


=! k=0 
n n-1 , k 
216.) = P, ( V “<t)=1- D et LU. 
is! kK=0 


Ces relations ont été utilisées pour le calcul des vraies valeurs de æ;(ô ), i = 
= ],2. 

Signalons qu’en plus de (28) on peut établir d’autres formules pour la 
distribution de Ÿ° x;, basées sur le fait que ÿ x; eT,,. 

is) is) 

5. Lien entre le test le plus puissant et l’efficacité asymptotique de l’esti- 
mateur du maximum de vraisemblance. En se servant des calculs et résul- 
tats des $$ 1, 2, on peut prouver maintenant le théorème 2.25.3 relatif à 
l’efficacite asymptotique de l’estimateur du maximum de vraisemblance 6 * 
dans la classe K° des estimateurs asymptotiquement centrés (l’apparte- 
nance de #* à K° a été établie au n° 2.29.3). 

DÉMONSTRATION du théorème 2.25.3. Supposons par absurde qu'il 
existe un estimateur asymptotiquement normal 8° tel que pour un 8, quel- 
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conque 
lim E,.n(@° — 0,)° = 02@,)<17'(6,)= limE, n(6* — 6,)2. 
Soit à éprouver l’hypothèse H, = {X € P,] contre H, = (X € P,, 
0 = 0, + un” !/?]. Construisons à cet effet un test à de la forme suivante: 
H, si9* <60, +un-!/?, 
ie Cr sinon, 


où pour fixer les idées on conviendra que v > 0. Alors 
@,(@) = P,. 0° > 8, + un —|/2) = 


h (8° — 8,)Vn v ) ( v ) 
=P, (-—— 1 — 1—-&(—— |). 
 ( (0) " o(8,) o(8,) 


L’appartenance de 8* à K° exprime que 
æ)(@) = P,0" < 6, +un- 12) = P,(8* & 6) — 1/2. 


Considérons maintenant un autre test ô,(X) de région critique 
8 —0,>(v+7y)/Vn, > 0, 
qui, comme déjà établi, sera asymptotiquement le plus puissant (cf. (21)). 
Vu que 
(uv + y)VZ(6,) < v/0(6,) 
pour y > 0 assez petit, on a pour ce test 
lim (60) = 1 — &( + NV76:)) > 1 — &&/0(6,)), 


lim æ&(6,) = lim P,@° < 0 + y/Vn) > 1/2. 


Ceci exprime qu’à partir d’un certain n le test Ô sera meilleur qu’un test 
le plus puissant. Cette contradiction prouve le théorème. 


8 4. Test de choix entre hypothèses multiples. Classes de tests optimaux 


1. Position du problème et notions fondamentales. Aux $$ 1 et 2 nous 
avons examiné les problèmes les moins compliqués de test d’hypothèses 
simples. Mais les hypothèses éprouvées sont souvent de nature plus com- 
plexe. Dans le cas paramétrique par exemple, l’hypothèse peut être de la 
forme {X € P,,8e 6,}, où 6, est un sous-ensemble donné de 6. Une telle 
hypothèse ne détermine pas la distribution de l’échantillon de façon uni- 
que. 
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Toute hypothèse FH qui n’est pas simple est dite multiple ou composée. 
Exemple : les hypothèses [X € 4, :;0 > 0], (X € &, , ; a > 0]. 

Dans toute la suite de ce chapitre, on considérera des problèmes de 
choix entre deux hypothèses que l’on désignera par H, et H,. Dans les pro- 
chains paragraphes, on se bornera à étudier le cas paramétrique X € P,, 
8 € 6. Les hypothèses peuvent alors s’écrire 


H={X EeP,;,0e6,), 6,C6, 68,N86, = SG. 


Puisque les valeurs de 8 qui n’appartiennent pas à 6, U 6, ne sont pas 
envisagées, on peut, sans nuire à la généralité, admettre que 6 = 6, U 6, 
et que FH, est l’hypothèse complémentaire (ou contraire) de H,, de sorte 
que l’hypothèse Æ, peut être représentée également sous la forme H, = {H, 
est fausse). Comme dans le $ 2, une des hypothèses — ici H, — sera l’hypo- 
thèse de base. Les hypothèses simples H, = [X € P,},0€e 6,, seront dites 
alternatives ou concurrentes, ou encore contre-hypothèses. 

Le choix de l’hypothèse de base caractérise souvent l’attitude du cher- 
cheur vis-à-vis de l’objet étudie. L’hypothèse de base correspond en prin- 
cipe à une certaine conception, l’hypothèse alternative, à des écarts par 
rapport à cette conception qu’il faut soit prouver, soit réfuter. En général, 
on a affaire à une ou quelques hypothèses de base et à une énorme quantité 
d’hypothèses alternatives. 

La procédure d’acceptation des hypothèses repose sur les tests statisti- 
ques. Puisque nous envisageons deux hypothèses en tout, comme au $ 2 tout 
test (randomisé) x sera défini de façon unique par une fonction mesurable 
(x), 0 < r(x) < 1, qui détermine la probabilité x(.X) d’accepter l’hypo- 
thèse H, pour chaque échantillon X (le choix aléatoire avec la probabilité 
+ (X) doit être effectué à l’aide d’un dispositif auxiliaire). Comme au $ 2, la 
fonction +(x) est dite critique. Si ô est un test non randomisé, la fonction 
a(x) = ô(x) ne prend que les valeurs 0 et 1 ; la région Q, de l’espace 77” 
dans laquelle ô(x) = 1 (la région d’acceptation de l’hypothèse H,) est dans 
ce cas dite critique. On l’identifie souvent au test ô. 

DÉFINITION 1. On appelle risque de première espèce d’un test rx le nom- 
bre 


a(x) = à E,r(X). 


Si le test n’est pas randomisé, il est évident que 
ô) = sup P,(X € Q,.). 
(9 4 1( ) 9c6, A 2) 


Ceci est la probabilité maximale (par rapport à 8 e 6) de rejeter à tort 
l’hypothèse H,. Pour faciliter la recherche des tests optimaux on considère 
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généralement des tests x vérifiant la condition 
œi(T) =E€ (oua,(r)< e). 


La classe de ces tests sera désignée par Æ'. 

Le nombre 1 — @œ,(7x) = 1 — € sera appelé niveau (ou seuil) de 
signification *) du test x. 

Du point de vue statistique, l’utilisation d’un test ô e K, exprime que 
dans une longue série d’expériences visant à éprouver une hypothèse A, à 
l’aide de ô, on se trompera dans moins de e% des cas si l’hypothèse A7, est 
vraie. 

Le niveau de signification d’un test est arbitraire. Mais en règle générale 
on prend pour € l’une des valeurs standards suivantes : 0,005 ; 0,01 ; 0,08 ; 
0,1. Cette standardisation permet de réduire le volume des tables utilisées 
par le statisticien. Il n’existe aucune autre raison spéciale au choix de ces 
valeurs. Le choix du niveau de signification de 7x doit tenir compte de la 
puissance du test 


B.(6) = E,r(X), 0e. 


Si elle est trop faible, il faut probablement envisager une plus petite valeur 
du niveau 1 — €. 

Notre attitude vis-à-vis de l'hypothèse avant l’expérience est un élément 
important qui peut influencer le choix du niveau de signification. Si l’on est 
fermement convaincu de la véracité de l’hypothèse (la probabilité a priori 
Q(Æ,) est élevée du point de vue bayésien), il faut des preuves irréfutables 
pour ébranler notre conviction. Dans ces conditions, il faut envisager des 
tests de niveau élevé et un € très petit (il est alors très peu probable que l’on 
tombe dans la région critique Q, si FH, est vraie). 

On s’en tiendra à la conception développée lors de la construction des 
intervalles de confiance, conception qui consiste en ce qui suit : si la proba- 
bilité e d’un événement À est petite, on admet qu’il est pratiquement 
impossible que cet événement ait lieu en une seule expérience. 

Certains statisticiens préconisent le point de vue suivant : il n’y a 
aucune raison de fixer le niveau d’un test et son choix n’est guidé par 


+) Souvent c’est € et non 1 — € qui est appelé niveau de signification. Mais ceci est un peu 
illogique : en effet il est plus naturel d'admettre que plus le niveau de signification est élevé et 
plus le test est « significatif ». C’est justement à partir de ces considérations que nous avons 
défini le seuil de signification (ou de confiance) pour les intervalles de confiance. Vu qu'il 
existe un lien direct (cf. $ 8) entre les tests et les intervalles de confiance, il serait irraisonnable 
de modifier la terminologie pour étudier les tests. 
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aucune règle raisonnable. Ils traitent le test des hypothèses non point 
comme une procédure débouchant nécessairement sur l’acceptation d’une 
des deux hypothèses, mais comme un processus qui se déroule dans l’esprit 
du chercheur et qui définit l’attitude de ce dernier vis-à-vis des hypothèses. 
Dans cette optique, au niveau de signification fixe on préférera le niveau 
« réellement atteint » qui se définit comme suit. Considérons une famille 
de tests non randomises à de niveau 1 — e, où € € ]0, 1[, et désignons par 
Q;,, la région critique de à en admettant que Q,,., C @2,., pour €, < €;. 

DÉFINITION 2. On appellera niveau réellement atteint d’une famille de 
tests Ô sur un échantillon X la variable aléatoire 1 — e(X}), où 


e(X) =inffé:Xenf,.). 


Plus la quantité 1 — e(X°) est élevée et plus l’hypothèse FH, est contestée 
par l’échantillon x. 

La valeur de e(X°) permet d’accepter ou de rejeter l’hypothèse pour tout 
niveau 1 — € donné à l’avance, par une simple comparaison de e(X) à €. 

EXEMPLE 1. Dans le paragraphe précédent, nous avons construit un test 
le plus puissant de l’hypothèse H, = {X € F, ,] contre l’hypothèse 
H;,=(XET,, ,}. Ce test admet pour région critique 


is] 10 
Supposons que pour un échantillon X de taille 7 = 10, l’on ait y X; 
ER | 


= 18. Vu que dans le cas de l'hypothèse H, on a Ÿ x, € F,,et 


isi 
T, ,Qa, bD = H,,022, 2bD, il vient F, ,,018, œ[) = H,,(36, of) = 
= 0,0154 (cf. table III ou [8]) et le niveau réellement atteint sera dans ce cas 
égal à 1 — e(X) = 1 — 0,0154 = 0,9846, de sorte que l’hypothèse A, sera 
réfutée par un test le plus puissant de niveau 1 — € = 0,98 et ne le sera pas 
par un test le plus puissant de niveau 1 — € = 0,99. 

2. Tests uniformément les plus puissants. Revenons aux tests rendomi- 
sés x que nous sommes convenus de définir par une fonction critique r(x), 
xe %". (La fonction r(x) peut être appelée aussi fonction de décision sta- 
tistique (randomisée).) 

S’il existe une statistique exhaustive S(X), on peut se limiter à des tests 
x(X) qui dépendent de X uniquement par l’intermédiaire de la statistique 
exhaustive S(X)}, c’est-à-dire à des tests de la forme r(X) = #(S(X)). On 
sait en effet que toute l’information sur le paramètre inconnu est concen- 
trée dans S, et l’intervention d’autres statistiques (d’une autre information 
sur X#) n’a pas de sens. 
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Nous avons déjà signalé que pour déterminer les tests optimaux, on res- 
treint généralement l’ensemble des tests envisagés à la classe X° des tests de 
niveau fixé. Parmi ces tests on pourrait essayer de chercher celui dont la 
puissance 


8,0) = Esr(X) 


est maximale dans le domaine 6, (autrement dit, dont le risque de 
deuxième espèce 1 — 8, (8) serait minimal). En d’autres termes, la probabi- 
lité d’accepter à juste titre l’hypothèse FH, doit être maximale. 
La fonction 8,(8) = E,r(X) est souvent appelée aussi puissance du test 
A. 
DÉFINITION 3. On dit qu’un test r° € K° est uniformément le plus puis- 
sant dans K si pourtoutre ona 


B,-0)2 8,6), VôeO;. (1) 


Il est évident que les tests uniformément les plus puissants n’existent pas 
toujours. Si un tel test x° existe, le graphique de sa puissance 6,.(0) est 
situé au-dessus de celui de toute autre puissance 6, (8) dans le domaine 6, 
sous réserve qu’elles soient toutes deux < € dans le domaine 6, (on rappelle 
que (7) = sup B,(8)),de sorte que B..(8) est l’enveloppe de la famille 

1 


(8, (8)} dans le domaine 6... 

Supposons que 6, = {9,}, Es,7° (X ) = €. Le test uniformément le plus 
puissant #° sera alors visiblement un test le plus puissant de niveau 1 — € 
entre l’hypothèse {0 = 8,} et son alternative (0 = 8,] pour tout 0,e 6,. Vu 
que la forme du test le plus puissant est connue, on peut déterminer tout 
naturellement un test uniformément le plus puissant : on peut en effet trou- 
ver ce dernier si le test le plus puissant entre les hypothèses {0 = @,] et {9 = 
= Ô,] est indépendant de 6... 

La réciproque est vraie: si un test le plus puissant de X" entre les hypo- 
thèses {9 = 0, } et (0 = 8,},0,e 6,, dépend essentiellement de 8,, c’est qu’il 
n’existe pas de test uniformément le plus puissant entre les hypothèses {0 = 
= 0,}jet 6e 6). 

Si l’hypothèse A, est simple (6, est composé du seul point 8;), la notion 
de test uniformément le plus puissant perd partiellement son sens et se 
transforme en un ordinaire test le plus puissant, c’est-à-dire en un test 
maximisant Es, (X ) dans la classe K. 

Définissons maintenant les tests bayésiens et minimax pour éprouver 
des hypothèses multiples. 

3. Tests bayésiens. Pour tester les hypothèses multiples on se servira des 
deux approches bayésiennes suivantes. 
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a) Approche totalement bayésienne. Elle consiste à supposer que les 
hypothèses Hs = [X € P,),8 € 6, sont choisies au hasard avec une distri- 
bution a priori Q. En d’autres termes, on définit une tribu & sur 6 = 6, U 
U 6,,6,€e6 ,6,e €, et on traite 8 comme une variable aléatoire sur 
l’espace (6, & , Q). 

La distribution Q induit des distributions Q, sur 6,, 1 = 1,2, et des pro- 
babilités g, = Q(6 € 6,), de sorte que Q = g,Q, + g,Q;. Désignons par 
Ho, l'hypothèse que 8 € 6; est choisi au hasard avec la distribution Q,.. 

DÉFINITION 4. On dit qu’un test x, est bayésien si c’est un test bayésien 
entre deux hypothèses simples Ho, et Ho,, associé à une distribution a 
priori (q,, q2) (cf. $ 1). 

b) Approche partiellement bayésienne. On admet ici que sont données 
des distributions a priori Q; sur 6, mais que les probabilités a priori q, et q; 
sont inconnues. On a affaire alors à un test entre deux hypothèses simples 
Ha, et Ho, 

Désignons comme RARE 


= {x : up E,r(X) < €}, 


et posons 
KA = {x : Eo,7(X) < €}, 


où Eo, représente l’espérance mathématique par rapport à la distribution 
engendrée surO6, x 2" par Q;etP,. 

DÉFINITION 5. On dit qu’un test TQ:, 0, est bayésien dans KA! si c’est un 
test le plus puissant de niveau 1 — € entre deux hypothèses simples Ho, et 
He, 

Si l’une des hypothèses H:; dégénère en une hypothèse simple (6, ou 6, 
est un singleton), il en sera de même de la distribution correspondante. 
Dans ce cas, nous simplifierons l’indice du test xQ,, Q, et écrirons par exem- 
ple xo, au lieu de x0,. 0, Si 6, = {8,) est un singleton. 

La construction des tests xQ,,Q, n'apporte aucune complication. Ces 
tests nous aideront à construire des tests uniformément les plus puissants et 
des tests minimax. 

4. Tests minimax. 

ee 6. On dit qu’un test x que les hypothèses H, = {8 . 6, jet 

= (0e 6,] est minimax dans K, (resp. KQ 1)sir e X (resp.7 e KQ 1)et si 
ÉA maximisé 


inf E,r(X) = inf 8, (6). 
8e6; 8e6; 
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Il serait plus correct d’appeler ce test, test maximin (c’est le minimum 
qui est maximisé). Mais nous opterons pour le terme « minimax » d’autant 
plus qu’il conserve son sens si l’on a affaire non pas à la puissance maïs aux 
risques de deuxième espèce. 

Les tests bayesiens et minimax seront étudiés plus en détail au $ 9. Les 
prochains paragraphes seront consacrés à l’établissement des conditions 
autorisant la construction des tests uniformément les plus puissants. 


$ S. Tests uniformément les plus puissants 


Dans ce paragraphe nous considérons deux importants cas particuliers 
mettant en jeu un paramètre scalaire 8 et où il est possible de construire des 
tests uniformément les plus puissants. Nous obtiendrons de même un résul- 
tat utile relativement à la construction des tests les plus puissants. 

1. Alternatives unilatérales. Rapport de vraisemblance monotone. 
Supposons que l’hypothèse de base est H, = {9 < 8,] et l'hypothèse alter- 
native H, = {0 > 6,}. Une telle hypothèse FH, sera dite unilatérale contrai- 
rement, disons, à l’hypothèse H, = {0 + 6,] (complémentaire de H, = 
= {0 = 6,}) qui est bilatérale, car elle admet des écarts par rapport à 8, dans 
les deux sens. 

L’autre condition posée consiste en ce qui suit. Supposons que la condi- 
tion (4,) est remplie et qu’il existe une fonction T (x) telle que pour tous les 
0,8,,8 > 6,, le rapport de vraisemblance 


ax) 


| 
Je, x) 


est une fonction croissante (ou décroissante) de 7 (x). On dit alors que la 
famille {P,] possède un rapport de vraisemblance monotone. 

La statistique 7 étant exhaustive, on af (x) = Y(T (x),0)h(x) et la con- 
dition posée concernera le rapport Y(T, 8)/Y(T, 8,). Cette condition 
exprime que pour tous les 8 > 8, et tout d > 0 l'inégalité /,(x)/ Ja, (x) > d 
peut être mise sous la forme T(x) > c,(8,8,, d) (ou T(x) < c,(8,8,, d)). 

Les familles f#, ,]} et æ,, 2}, Par exemple, possèdent des rapports de 
vraisemblance monotones, puisque 


Ja, (4) 
1. (4) 


fax) CII INS 2 
Roc wt:Ga)L 
is] 


= EXP C — œo)nx — 5 (a? — ad) } 
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et les inégalités correspondantes seront de la forme (œ > @&,,0 > a) 


X > C,(@, op» d) =; (œ + ao) + re (T(X) = x), 
0 


Ÿ x > co, co, d) = ESS In d (ro - L: +) 


i= | 


De nombreuses familles paramétriques du $ 2.2 possèdent aussi un rapport 
de vraisemblance monotone. Dans la suite, on admettra pour fixer les idées 
que (1) est une fonction T (x) croissante. 


THÉORÈME 1. Supposons que 8 est un paramètre scalaire et que la 
famille {P,] possède un rapport de vraisemblance monotone. Alors : 

1) Dans K, il existe un test uniformément le plus puissant de H, = {0 < 

< 0,] contre H, = (8 > 6,}, qui est de la forme 


1 si T(X)> oc, 
AUX)=4 p si T(X)=c, (2) 
0 si T(X)<c, 
où cet p se déterminent à partir de la condition 
E, x°(X) = P, (TX) > c) + pPo (T(X) =C)=e. (3) 


2) La puissance B°(8) = E,r°(X) est strictement croissante par rapport 
a 6 pour tous les 0 tels que B°(6) < 1. 

3) Pour tous les 6, le test (2) est uniformément le plus puissant entre les 
hypothèses H? = [0 < 8,jet H5 = {0 > 6,} dans la classe Ks°çg,)- 

4) Pour tout 8 < 6,, le test (2) minimise B(0) = E,x(X) dans la classe 
K.. 


DÉMONSTRATION. Considérons tout d’abord les hypothèses simples 
{9 = 6,}et {0 = 8,),8, > 8,. Un test le plus puissant entre ces hypothèses 
dans la classe des tests x tels que Es r(X ) = e est, en vertu du théorème 
2.1, de la forme (2), puisque l’inégalité Z(X) > d est équivalente à 
T(X) > c (moyennant une relation convenable entre c et d), où les cons- 
tantes c et p se déterminent à partir de (3) (comparer avec (2.3)). Vu que les 
nombres c et p se déduisent de façon unique d’une équation de la forme (3), 
il vient que le test (2) sera aussi un test le plus puissant entre les hypothèses 
(8 = 6,} et (0 = 8,j,8, > 6, dans la classe K-9,,. De là et du théorème 2.1 
(cf. (2.4)), il s'ensuit que B°(6,) > B°(G,). 

Comme B°(8) est croissante, on a 


E,r(X)<e pour 8<0,. (4) 
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La classe K, des tests x vérifiant (4) est contenue dans la classe {x : 
Es, r(X ) = €]. Etant donné que le test (2) maximise B(8,) dans cette der- 
nière classe, il le maximisera aussi dans K° . Il reste à remarquer que le test 
(2) est indépendant de 8,, et par suite, les conclusions établies sont valables 
pour tout 8, > @,. Ceci prouve les trois premières assertions du théorème. 

La quatrième proposition résulte des trois premières si on les applique 
pour éprouver l’hypothèse H, = {8 > 8,} contre l’hypothèse H; = {8 < 
< Ô,]} à l’aide d’un test uniformément le plus puissant de classe {II(X) : 
E,II(X) < 1 — e,0 > 0.) qui sera de la formel°(X) = 1 — x°(X) et dont 
la puissance 1 — 8°(8) = E,I1°(X) sera maximale pour 8 < 0,. « 

Une importante classe de familles de distributions à rapport de vraisem- 
blance monotone est la famille exponentielle à un paramètre (cf. $ 2.15) 
dont la densité f,(x) est de la forme 


f(x) = h(x) exp (a (B)U(x) + (8). (5) 
En effet, dans ce cas 


Fe = exp CQ — a@,)) }) U(x;) + n(V(6) - v6»} 
i=] 


et le rapport de vraisemblance dépendra monotonement de T(x) = 


= Ÿ U(x;)sia(8) — a(9,) conserve son signe pour tous les 8, 86,8 > 80. 
im) 


COROLLAIRE 1. Supposons que f,(x) est de la forme (5), où a (8) est une 
fonction monotone. Il existe alors un test uniformément le plus puissant *x° 
dans la classe K, entre les hypothèses H, = (8 < 8,}et H, = {8 > 6,). Si 
a(0) est strictement croissante, ce test est de la forme (2), (3). Si elle est 
strictement décroissante, les inégalités dans (2), (3) changent de sens. 


A noter que si l’on éprouve une alternative bilatérale, par exemple 
l’hypothèse H, = {8 = 8,] contre l'hypothèse H, = {9 # 6,}, il n’existe 
plus de test uniformément le plus puissant pour la famille exponentielle (S). 
En effet, supposons pour simplifier que a(8) est strictement croissante et 


que la P,-distribution de T(X) = y U(x,) est absolument continue pour 
i=] 

tous les 4. En vertu du théorème 2.1, le test le plus puissant entre {8 = 8, jet 

{9 = 6,} ne sera pas randomisé et admettra pour région critique le domaine 

T(X) > csi8, > 6,, et le domaine T(X) < c si0, < 8,. On voit que la 

puissance maximale au point 8, est réalisée sur des tests fondamentalement 

différents sèlon le signe de la différence 0, — @,. Du théorème 1 il s’ensuit 
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que si l’on prend l’un quelconque de ces tests, par exemple celui pour lequel 
x(X) = 1 dans la région T(X) > c, il sera uniformément le plus puissant 
pour tout 8, > 8, et visiblement pas pour 8, < 6,. 

Comme déjà signalé, les deux hypothèses simples du théorème 2.1 rela- 
tif au test le plus puissant sont dans un certain sens symétriques (le test le 
plus puissant minimise le risque de deuxième espèce æ,(x) si (x) est fixe, 
et inversement minimise &,(x) si æ,(x) est fixe). Cette symétrie fait défaut 
dans le test des hypothèses multiples. A cette circonstance est lié le fait inté- 
ressant suivant. Nous venons juste de voir que la famille exponentielle 
n’admet pas de test uniformément le plus puissant de H, = {8 = 8,] contre 
H, = {8 + 6,}. Il est clair, de ce qui précède, qu’il n’existe pas non plus de 
test uniformément le plus puissant de l’hypothèse {8 e }9,, 8,[) contre 
l'hypothèse {8 & }9,, 8,[]. Mais si pour hypothèse de base H, on prend 
l'hypothèse H, = {0 & ]0,, 8,[} et pour son alternative l’hypothèse H, = 
= (0 € J0,,0,[|, il existera alors un test uniformément le plus puissant dans 
la classe K°. Considérons maintenant le deuxième cas où il est possible de 
construire un test uniformément le plus puissant. 

2. Hypothèse de base bilatérale. Famille exponentielle. 


THÉGRÈME 2. Supposons que f,(x) est définie par (S) et soit à éprouver 
l’hypothèse H, = {8 & W,,0,[), 8, < 8,, contre l’hypothèse H, = {8 € 16,, 
0,[). Si la fonction a(8) est monotone, alors : 

1) Dans la classe K, = {x : up | E,r(X) < €) il existe un test unifor- 

1° 72 


mément le plus puissant »x° de la forme 
1 si Tjelc,,cl, 
A(X)= 4 p, si T(x)=c,,i= 1,2, (6) 
O0 si Tx)élc,,c;], 


où T(x) = D U(x;), et les constantes c; et p; se déterminent à partir des 
is) 
conditions 
E, r°(X) L E, 7 °(X) = €. (7) 


2) Ce test maximise la puissance B(8) = E,x(X) sous la condition (7) à 
l'intérieur de l'intervalle W,, 0,[ et la minimise à l'extérieur (cf. fig. 4). 

3) Pour 0 < € < 1 la fonction B°(6) présente un maximum en un point 
0,€ J,, 0,[ et décroît strictement lorsque 8 s'éloigne de 8, vers la droite ou 
la gauche. Ceci étant, nous excluons le cas où la distribution de T(X) est 
concentrée en deux points, c'est-à-dire le cas où il existe des t, et t, tels que 


P,(T(X)=1)+P.(T(X)=1)=1 pourtouslese. (8) 
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La proposition suivante nous sera utile dans notre exposé. 


LEMME 1. Les équations (7) admettent toujours une solution en c; et p,, 
i= 1,2,pour0<e < I. 


Fig. 4. Courbes de puissance 8B°(8) = E, z°(X) et 8(6) = E, r(X) pour un test 
arbitraire x e K'. 


La démonstration de ce lemme sera produite plus loin. 
DÉMONSTRATION du théorème 2. Mettons la fonction de vraisemblance 
sous la forme 


fox) = cO)e Th (x), () 


où nous admettrons, pour fixer les idées, que a(8) est strictement crois- 
sante. 

Considérons la position bayésienne suivante du problème. Soit à éprou- 
ver une hypothèse de base « mixte » H qui consiste en ce que {9 = 8,} avec 
la probabilité q et {9 = 8,} avec la probabilité 1 — q contre l’hypothèse 
H, = {8 = 6,),8,€ ,,0,[. Supposons par ailleurs que les probabilités a 
priori des hypothèses H et H, sont respectivement égales à r et 1 — r. Vu 
que H et H, définissent complètement la distribution de l’échantillon, on 
peut les traiter comme des hypothèses simples et appliquer les résultats du 
$ 2. Un test bayésien (noté +x°) sera alors de la forme 


| SX) r 
1 RO =, 
AT AT ETES TAC SET 
rAX)= À p(X) si R(X)= ——, (10) 
0 si  R(X)< —— 


En vertu de (9), l’inégalité R(X) > r/(1 — r) est équivalente à 


C(,)  «@@,)-a60)T CO) _@@)-a@9»T L 1—7r 
12 GED aGONT + (1 — g) 22 ED -SONT TS (11) 
CU) 76) ; 
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Le premier membre est une fonction convexe de T, puisque a(6,) — 
— a(0,) < 0,a(8,) — a(8,) > 0. Ceci exprime que (11) peut être mise sous 
la forme 


CU <ON DE 


où c, = c;(g,r) ; les nombres c, < c, prennent toutes les valeurs possibles. 
Posons la fonction p(X) de (10) égale à p, si T(X) = c,et à p, si T(X) = 
= C. : 

En vertu du lemme 1, il existe des nombres c;, i = 1, 2, (ou ce qui est 
équivalent, des nombres gq et r) et p; tels que (7) soit remplie. Montrons 
maintenant que la fonction x°(X) définie dans (10) ou ce qui revient au 
même dans (6) sera douée de toutes les propriétés énumérées dans le theo- 
rème 2. Ce qui vient d’être dit exprime que nous avons commencé à traiter 
7° en même temps comme une fonction de décision pour éprouver H, con- 
tre H,. Le test x° étant un test bayésien (de H contre H,), pour tout autre 
test x on a 


r(gE, T° + (1 — q)Eo,7°) + (1 — r)E;, — 7°) < 
< r(gE, x + (1 — 4,7] + (1 — r)E,, (1 — TT). (12) 


Donc, si le test 7 vérifie comme +x° la relation (7), alors 
E,r° 2E, 7. 


Ceci exprime qu’en chaque point 8, € ]0,, 8,[, le test r° maximise la puis- 
sance 8(8) = E,x dans la classe des tests x vérifiant (7). Mais la condition 
(7) définit une classe de tests plus vaste que K'. Donc, r° maximisera &(8) 
dans K’, aussi. Etant indépendant de 8,, le test x° sera uniformément le plus 
puissant dans K'. 


Signalons encore qu’en vertu du théorème 2.1. 
B°(65) == E, T° 2 € 
et l’égalité n’est possible ici que lorsque 
| &o (x) + (1 — 4)/o,&) = Ja, &) (13) 
[{" ]-presque partout. 

De façon analogue, on s’assure à l’aide de (12) que 7° minimisera Es, 7 
pour Es, et Eo,T fixes (nous utilisons les mêmes raisonnements que pour 
la démonstration des théorèmes du $ 1). 

Montrons maintenant que x° minimise 8(8) à l'extérieur de J6,, 8, [. 
Supposons que 8° < 8,. Remplaçons dans ce qui précède le triplet de 


points (0,,6,,8,) par le triplet (8°, 8,, 8,) et remarquons que pour le nou- 
veau problème le test x° sera encore bayésien (en effet, sa forme ne dépend 
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pas du choix des points 8,, i = 0, 1, 2) dans la classe des tests x tels que 
E,.x = B°(0°), Es,x = €. Mais d’après la remarque faite ci-dessus le test 
r° minimisera E,.x pour E, x et Es x fixes. Ceci prouve les deux premières 
assertions du théorème. 

Prouvons la troisième. Remarquons préalablement qu’un changement 
des variables d’intégration nous permet d’écrire 


PTEA)=c@) [|  eCTHh(xut(dx) = CE) [| ex (ar), 


x: TuXxA| 1€A 
où la mesure » est définie par la relation 


A4)= | AG (ax). 


x: TA] 


Ceci exprime que la distribution de 7 par rapport à la mesure » admet une 
densité (cf. également le lemme 2.15.1)g{r) = c(8)e‘(} et par suite appar- 
tient aussi à une famille exponentielle. La fonction a(8) étant monotone, on 
peut introduire un nouveau paramètre 8 = a(8) sans rien modifier au pro- 
blème et à ses hypothèses. Nous pouvons donc admettre sans restreindre la 


généralité que a(8) = 8. Dans ce cas les fonctions c(9) = [[ et v(dt)] 7 Î'et 
B°(8) = E,x°(X) seront visiblement continues. Supposons maintenant que 


la proposition du théorème relative au caractère du comportement de 8°(6) 
est fausse. Il existe alors trois points 8° < 8°” < 8°” tels que 


B°@‘)=8°@")=6°@" )=ae)o, Il. (14) 


Nous avons vu que r° maximise B(9”°) sous réserve que B(8*) = 
= B(0"") = a, ceci étant si la condition (13) n’est pas remplie, on aura 
B°(6") > œ. Mais dans notre cas la relation (13) exprime que 


ae+a-o mg Dec -sT 4 qq) ED 6-07 = ; 


Jo J3- c(8") c(0”) 


»-presque partout. Le premier membre étant convexe par rapport à T, cette 
égalité n’est possible que pour deux valeurs de 7 au plus. Donc, si (8) est 
exclue, B°(8°") > B°(8°) = a et (14) est impossible. 

DÉMONSTRATION du lemme 1. Nous effectuerons la démonstration 
sous la condition simplificatrice que la distribution de 7 (X} est continue, 
Ç'est-à-dire que P,(T = c) = 0 pour tous les 8 et c. Ceci nous évitera des 
complications insignifiantes. Dans ce cas, les remarques faites en fin de 
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démonstration du théorème 2 nous permettent d’écrire 


ç2 c2 
E,r°(X) = P,(Te lc,, cc, D = 1210700 = C(6) Î et! (dt). 
Ci Ci 


Cette fonction est continue par rapport à 8, c, et c:. 


Désignons par c, la valeur de c pour laquelle P4, (T < c,) = 1—-e. 
Sur J—®, c, [ est alors définie une fonction d'(c) telle que 


d(c) 
P,(TE lc, d(c)l) = | 8e, ( (dt) = €. 


€ 


Il est clair que d(c) est une fonction continue strictement croissante. 
On démontrera la proposition annoncée lorsqu’on aura établi que la 


fonction pe 


dc) = P,(Te lc, d(c)D = | 8, ({dt) 


C 


est continue et strictement croissante, #(— œ) < € et Y(c, ) > €. Il existera 
alors un c, tel que ÿ(c,) = € et par suite Po, (Co» d(co)) = e,i = 1,2. 

La continuité de ÿ(c) est évidente. Prouvons la monotonie. Mettons 
v(c) sous la forme 


d{c) 
VC) = [| 8 ()r()y(ar), (15) 


[a 


où r(1) est la densité de la P,,-distribution de T par rapport à la Ps,- 
distribution : 
(1) = C2) Lw:-87 
c(,) 
Supposons que À est, pour fixer les idées, tel que c + À < d(c). 
Comme 


c+à d(c +3) 
[ æU»(dt)= | 8, U (ar), (16) 
€ d(c) 


il vient alors . — 
Y(c + A) — ÿ(c) = Î 8e, ()r(t (dt) — Î 8e, ()r(t}v(dt) > 


d(c) € 
> [r(d(c)) — r(c + A)JA > 0, 
où À est la valeur commune de l'intégrale (16). 
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Assurons-nous maintenant que #(—o) < €. Désignons par f, la solu- 
tion de l’équation r(f) = 1.Sid(—) < t,, alors r(t) < 1 sur l’intervalle 
]—©œ,d(-—){, et l’inégalité annoncée est évidente en vertu de (15). Si en 
revanche d(—) > f,, on a de façon analogue 


V(—œ) = 1 — P,(TE Jd(—®), œ[) < 
D a P, (TE ]Jd(— ©), œ[) cu P, (TE ]— ©, d(—)[) — €. 


On établit de la même façon que ÿ(c,) > €. <« 

REMARQUE 1. Nous laissons au lecteur le soin de s’assurer que pour 
0, < 6, le théorème 2 et tout ce qui a été dit reste en vigueur si l’on remplace 
l'intervalle ouvert ]0,, 8,[ par l'intervalle fermé [9,, 8,], c’est-à-dire si l’on 
éprouve l'hypothèse H, = {8 & [8,, 0,]] contre l'hypothèse H, = {0 e [0,, 
0). 

REMARQUE 2. De la démonstration du théorème il ressort que la condi- 
tion d’exponentialité de la famille {P,} peut être remplacée par la condition 
plus faible de convexité du rapport 


PACS NC 
fa 2) fe, 2) 


par rapport à une statistique 7 (comparer avec (10), (11)). 

REMARQUE 3. Attirons une fois de plus l’attention sur le fait que si 
l’hypothèse de base était H, = {8 e ]0,,0,[}, il n’existerait pas de test unifor- 
mément le plus puissant, puisque dans ce cas les tests « unilatéraux » de la 
forme T > c ou T < c associés respectivement aux alternatives 0 > 6, et 
0 < 6, seraient plus puissants qu’un test de la forme T & ]c,, c,[. Pour les 
alternatives 0 > 6, par exemple, il existera un test uniformément le plus 
puissant de la forme T > c, et la condition x € K, nous conduit à une seule 
contrainte Éo,x < e (cf. remarques de la fin du n° 2). 

Néanmoins, si la classe K°, est restreinte de façon naturelle (cf. $$ 6, 7), 
il existera un test uniformément le plus puissant dans ce problème aussi. 

3. Autre approche des problèmes envisagés. La teneur mathématique de 
la principale proposition du théorème 2 ainsi que des théorèmes des $$ 1, 2 
est très simple et mérite d’être mise en évidence. Dans le théorème 2 par 
exemple, elle consiste en le problème de calcul aux variations suivant : dans 


la classe des fonctions x vérifiant les conditions 
fr Gu(dx) =e, i= 1,2, 


trouver la fonction x° qui maximise 


[ rx fo "(dx ). 
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La proposition suivante est une généralisation du lemme fondamental 
de Neyman-Pearson. 


LEMME 2. Soient f,, …, f,,., des fonctions réelles définies sur 2°" et 
intégrables par rapport à une mesure y". Soient x des fonctions critiques 
telles que 


(rad) =e, i=l,..,m. (17) 


Alors l'élément x° qui maximise | x(x)f,,. (x )u" (dx) est de la forme 


D OS nm) > Y kif), 


n°(x) = 
O si f,,1(x) < y k: f.(x), 
imi 
où K,, …, k,, sont déterminés à partir des conditions (17). 
DÉMONSTRATION. Désignons F(x) = rx)" (dx), i = 1, … 
…, m + 1. L’élément x vérifiant les conditions F(x) = €,,i = 1, ...,m, 


maximise F,,,,(x) si et seulement s’il maximise F,,,,(x) — Ÿ K;F;(x) 
is] 

pour des &,, …, k,, (la valeur de la somme est fixe ici). Il suffit donc que x 

maximise 


FGme— E kif) Jr. 


isi 


Or cette expression devient maximale si l’on pose x(x) = 1 là où l’expres- 


sion f,, , (x) — D k: f(x) > 0, et x(x) = 0 là où elle est < 0. Les cons- 
is! 


tantes £, dont dépend x, et les valeurs « libres » de x sur l’ensemble 


2 4:10) = y k; fu) | doivent être choisies de façon à ce que (17) ait 
is 
lieu. <« 

4. Approche bayésienne et distributions a priori les plus défavorables à 
la construction de tests les plus puissants et de tests uniformément les plus 
puissants. Le lemme 2 explique la teneur mathématique des constructions 
effectuées dans ce paragraphe. Dans ce numéro on abordera les mêmes 
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choses, mais sous un angle différent. En effet, en démontrant le théorème 2 
nous avons implicitement utilisé une approche liée à la construction de tests 
minimax à l’aide de tests bayésiens (comparer avec le théorème 1.2). Cette 
approche sera étudiée plus en détail dans la suite. On se propose d’établir 
une proposition générale utile pour la construction des tests uniformément 
les plus puissants dans le cas général et de mettre en évidence son lien avec 
l’approche minimax. 

Soit à éprouver l’hypothèse de base H, = {0 e 6, contre l’hypothèse 
simple H, = {8 = 6,), 0, € 6,. Pour H, on peut prendre une contre- 
hypothèse quelconque {X EG], où G admet une densité g par rapport à u et 
n’est pas liée à la famille |P,}. Le problème consiste à chercher un test le 
plus puissant + de niveau 1 — e entre H, et H,. En d’autres termes, il faut 
trouver une fonction + de &, 


K = {x SUP E,r(X) < €} (18) 


minimisant 8(0,) = Es,x(X). Dans les considérations précédentes nous 
avons plus d’une fois constaté une certaine « dualité » dans la position du 
problème : la maximisation de la puissance, à risque de première espèce 
fixe, équivaut à la minimisation du risque de première espèce, à puissance 
fixe. En inversant ainsi le problème, on est conduit à minimiser (18), c’est- 
à-dire à construire un test minimax (cette construction sera discutée plus en 
détail au & 9). Ceci explique dans une certaine mesure la similitude de la 
proposition prouvée plus bas avec le théorème 1.2. 

Considérons donc la position partiellement bayésienne du problème, 
position dans laquelle 8 e 6, est un paramètre aléatoire de distribution Q.. 
L'hypothèse multiple H, est alors remplacée par l’hypothèse simple Ha, 
sous laquelle la densité de X est définie comme la moyenne par rapport à la 
mesure Q, 


Ja) = [ fox)Q, (de). 
6; 

Pour éprouver HQ, contre H, dans la classe K® = {r :Eo r(X) < e) 
des tests de niveau 1 — €, il existe un test le plus puissant FQ, de la forme 
(ra, est le test FQ,0Q: dans les notations du $ 4, où Q, est dégénérée au point 
0.) : 

| 1 x)> a (x), 
ro &) = [ : 8X)> Jo. &) 
O si g(x) < Jo. (x) 


Gicig(x) = Jo, (x) dans le cas paramétrique). 


(19) 
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THÉORÈME 3. Supposons qu'il existe une distribution Q, concentrée sur 
le sous-ensemble 8? C 9, (Q,(67) = 1), telle que 


1) ro, EKe1, (20) 
2) E,xo (X) = const = sup E,xo,(*) (21) 
| 


pour tous lesôe 6}. 
Alors le test x0, € K, est le plus puissant entre H, et H;. 


DÉMONSTRATION. Assurons-nous tout d’abord que ro, € X,. D’après 
les hypothèses du théorème 


ue E,xo (X) = | E,xo, (0, (dB) = Eo, To, (*) < €. (22) 
6j 
Supposons maintenant que + est un autre test quelconque de K’, c’est- 
à-dire un test de niveau 1 — € de FH, contre H,. Alors 


Enr = [ro a" (dr) = | Esr(X)Q:(d0) < €, 
8; 


et par suite x € K@. On a donc en vertu de la définition de xo, 
E, x0,(X) > E,,x(X). 4 


La distribution Q, du théorème est dite /a plus défavorable. Ceci est lié 
à la circonstance suivante. La quantité 6Q,(0,) = Es, ro, (X ) est la plus 
grande valeur prise par la puissance sur la classe K : ! pour la distribution 
« a priori » Q, sur 6... Si l’on considère maintenant une autre distribution 
Q° sur 6,, on obtient 


Bo-@2) 2 Bo, @2) Bo, 2) — inf Bo) 


(ceci est la signification du terme « la distribution la plus défavorable »). En 
effet, en vertu de (22), le test xo, est de classe X° et par suite de classe KQ°. 
Ceci exprime que sa puissance Bo, (62) = Es,xQ, (X ) sera au plus égale à 
celle d’un test le plus puissant dans K©”, puissance égale par définition à 
Ba-(@62). 

ù Nous aurions pu prouver maintenant les théorèmes 1 et 2 à l’aide du 
théorème 3. L'ensemble 6} sur lequel est concentrée la distribution la plus 
défavorable est composé dans les théorèmes 1 et 2 respectivement d’un seul 
point {0,] et de deux points {8,, 8,}). Les conditions (20) et (21) se transfor- 
ment respectivement en les conditions (3) et (7). 
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On se servira de façon analogue du théorème 3 pour construire un test 
uniformément le plus puissant dans les autres cas : sile test *Q, Construit ne 


dépend pas de 8, e 6, il sera uniformément le plus puissant de H, = {#€ 
€ 6, } contre H, = (8 e 6.) dans la classe K. 

Sous des conditions assez larges qui sont ordinairement remplies dans 
les problèmes, il existe une distribution la plus défavorable Q, vérifiant les 
hypothèses du théorème 3. Il suffit d'exiger que 6, soit compact et f,(x) 
continue par rapport à 8 pour presque tous les x (pour plus de détails voir 
[50] et le chapitre V). 

L’étude des liens entre les approches bayésienne et minimax sera pour- 
suivie au $ 9. 


$ 6*. Tests sans biais 


Dans ce paragraphe et dans le suivant, on se servira des principes 
d’absence de biais et d’invariance pour restreindre de façon naturelle la 
classe des tests envisagés, l’objectif de cette restriction étant la recherche 
des tests optimaux. 

1. Définitions. Tests uniformément les plus puissants sans biais. Soit * 
éprouver comme dans le paragraphe précédent l’hypothèse multiple H, 

= # e 6,] contre H, = {8 e O,] au vu d’un échantillon X € P,,8€ 0 = _ 
= O0, U 6,. Considérons un test x de classe K, = {x : : Sup E,r < €). Si par 

1 


exemple 6, est composé du seul point 8,, Es, x = €, alors e est la probabilité 
de rejeter A, à tort. Une condition légitime que doit remplir le test x est que 
la probabilité de rejeter H,, à juste titre soit strictement supérieure à e. Le 
cas échéant il existerait des contre-hypothèses pour lesquels l’acceptation 
de FH, est plus probable que dans les cas où FH, est vraie. Une telle situation 
n’est pas souhaitable. Nous sommes conduits à la nécessité de distinguer 
l’importante classe de tests suivante. 
DÉFINITION 1. On dit qu’un test x est sans biais ou non biaisé si 


E,r(X) > ne E,r(X). (1) 


Donc, un test x e K' tel que sup Ëo E,x = € sera sans biais si 8,(8) > 


pour 0 e 6,. Désignons par K la classe des tests sans biais de niveau 1 — €. 
Le test unilatéral x de région critique 7 > c (ou T < c) pour les familles 

exponentielles, mentionné dans le paragraphe précédent, ne peut être un 

test sans biais de H, = {X € P, } contre H, = [X € P,,,0 # 0,}, puisque 


= (0:0 + 0,)}, É hube si Eg,x = € (cf. théorème S.1). 
Ÿ En revanche, s’il existe des tests uniformément les plus puissants, ils 
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seront nécessairement sans biais, puisque leurs puissances 6(0), 8 € 
€ O,, ne pourront être inférieures strictement à celle du test r(X) = €. 

Le principe d’absence de biais *) présente un intérêt en soi dans la 
mesure où il permet de restreindre naturellement la classe des tests. Ce qui 
nous donne la possibilité de construire des tests uniformément les plus puis- 
sants dans les classes X° dans les cas où ceux-ci n’existent pas dans la classe 
K.. 

| Nous verrons que ceci concerne en particulier le problème de test de 
l’hypothèse H, = {8e [0,,0,]},8, < 8;, contre l’alternative bilatérale H, = 
= {0 & [0,, 0,]} (comparer avec le n° 2 du 8 5). 

Pour chercher les tests uniformément les plus puissants sans biais on 
peut dans une large mesure se servir des méthodes déjà appliquées dont le 
contenu est exposé dans le lemme 5.2. Ceci étant, la proposition suivante 
peut nous être utile. 

Supposons que des ensembles 6, et 6, de R“ admettent une frontière 
commune non vide Fr : 


r = 40, N 00, 


(06; désigne la frontière de 6,), c’est-à-dire l’ensemble des points adhérents 
simultanément à 6, et à 6,. Supposons d’autre part que pour tous les x € 
e K, 


B,(80) = E;rx(X) =e  pourtouslesôer. (2) 


Cette propriété est visiblement toujours remplie si 8, (8) dépend conti- 
nüment de 8 pour tout test x de X. 
Comme 


8,6) = [ra)f@m'(&), 0<rx)< 1 


cette fonction sera continue si /, (x) l’est par rapport à 8 pour [u"]-presque 
tous les x. Ceci résulte du corollaire 1 de l’ Annexe VI. 
Désignons par X la classe des tests x vérifiant (2). 


LEMME 1. Supposons que K E K (c'est-à-dire qu'est remplie (2)). Six 
est un test uniformément le plus puissant dans K, N\ K\, il le sera dans K. 


DÉMONSTRATION. Il nous suffit de nous assurer que # € K, et que : K. € 
C K, N K'. La deuxième de ces propositions résulte de |’ hypothèse K. € 


*) Le terme « sans biais » a été utilisé aussi pour caractériser les estimateurs. La propriété 
d'absence de biais d’un estimateur est dans une certaine mesure identique à la propriété 
d’absence de biais d’un test : si un estimateur 8° est à biais, alors E,, 0° # 0, et il existe 
d’autres valeurs du paramètre 8 # 0, pour lesquelles E, 9° =0,. 


330 THÉORIE DES TESTS D'HYPOTHÈSES [CH.3 


C K,. La première, du fait que le test x æ € appartient à X, N K et par suite 
inf E,r(X) > inf E,x = €. < 
6e8; 8eO; 

Le lemme 1 nous permet donc de ramener la recherche des tests unifor- 
mément les plus puissants sans biais à celle d’ordinaires tests uniformément 
les plus puissants mais sous les conditions aux limites (2). Si la frontière F 
est composée d’un nombre fini de points, on se retrouve dans les conditions 
du lemme 5.2 où il nous reste à vérifier que la fonction critique optimale 
obtenue 7 est indépendante de la valeur 8 e 6, maximisant la fonctionnelle 
E,r(X). Ceci exprimera que le test est uniformément le plus puissant. 

Signalons maintenant le fait suivant lié à la dégénérescence des condi- 
tions (2), fait qu’il est plus simple d’illustrer en dimension un. Si 6, = [6,, 
8,] et 6, est le complémentaire de 6,, les conditions (2) auront la forme de 
deux équations E; r(X) = €, i = 1, 2. Ces équations se transforment en 
une seule dans le cas limite 0, = 8,. Mais, le test x étant sans biais, sa puis- 
sance 6, (8) doit prendre sa valeur minimale au point 8, (cf. (1)). Donc, si 
B, (6) est dérivable, le rôle des équations (2) pour 8, = 8, sera tenu par les 
égalités 

B,@,)=e, B,(@,) = 0. (3) 


Les conditions de dérivabilité de | fa(x)u(dx), et partant de 8,(8) = 
= E,r(X) sont établies dans l’ Annexe VI. Si ces conditions sont remplies, 
on a 


BG) = [rx œu" (dx) = 
= [rG)L' 6)" (dx) = Esr(X)L'(X, 6). 


Ceci exprime que les conditions (3) peuvent de nouveau être transcrites en 
termes d’intégrales : 


E, x(X) = €, E, r(X)L °(4,0,) = 0. (4) 
Pour la famille exponentielle (5.9) par exemple, on a 
L'(x,0) = c’(8)/c(0) + a‘(8)T (x). 
Comme E,L"(X,8) = 0, il vient c’(8)/c(8) = —a”(8)E,T(X), 
E,r(X)L'(X,0) = —-a'(@)E,T(X): E,r(X) + a'@)E,;r(X)T(X), 
et les équations (4) deviennent 
E, (x(X) — €) = 0, E, (r(X) — €e)T(X) = 0. 


A titre d'illustration considérons un cas pour l’examen duquel nous 
avons déjà préparé le terrain. 
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2. Alternatives bilatérales. Famille exponentielle. 


THÉORÈME 1. Supposons que f,(x) est définie par (5.9) et que l’on teste 
l’hypothèse H, = {8 € [8,,0,]], 0, < 6,, contre l'hypothèse H, = {0 & [0,, 
6,]}. Si la con a(8) est monotone, alors : 
1) Dans la classe K, des tests sans biais de niveau 1 — € il existe un test 
uniformément le plus puissant %x de la forme 
O si c<T(x)< c;, 
TX) = À p, si T(x)=c,,i= 1,2, (S) 
1 si T(x)ælc,,c;], 
où T(x) = » U(x;), et les constantes c;, p;, i = 1, 2, se déterminent à 


1-1 
partir des conditions 


E, r(X) =€e, i=1,2, (6) 
si 0, < 8, et des conditions 
E, #(X) = 6,E, Œ(X) — TX) = 0, (7) 


si 0, = 6;. 

2) Le test x minimise la fonction B,(0) = E,x(X)sous les conditions (6) 
à l’intérieur de l'intervalle [@,, 0;] et la maximise à l'extérieur de cet inter- 
valle sous les conditions (6) ou (7) (pour 8, = 9, dans le dernier cas). 

3) Pour 0 < € < 1,0, < 6,, la fonction BG) = E,r(X) présente un 
minimum en un point 6, e J0,, 6,[ et est strictement croissante lorsque 6 
s'éloigne de 8, vers la droite ou la gauche. Ceci étant, nous excluons le cas 
(5.8). 


Il est aisé de voir que ce théorème reprend pratiquement le théorème 5.2 
à la seule différence que les assertions sont « inverses » et l'égalité 0, = 8, 
n’est pas exclue. 

DÉMONSTRATION. Pour 8, < 8,, la marche à suivre est exactement la 
même que pour le théorème 5.2. Dans la remarque 1 qui suivait ce théo- 
rème on a signalé que pour 8, < 8, tous les raisonnements restaient en 
vigueur si l’on teste l’hypothèse {0 & [9,, 8,]} contre (6 € [0,, 8,]}, c’est-à- 
dire, dans les notations de ce paragraphe, l’hypothèse H, contre H,. 
Posons #(x) = 1 — r°(x), où r° est la fonction définie dans (5.6) sous les 
conditions Es. x °(X) = 1 — e,i = 1,2, au lieu de (5.7). Il est alors évident 
que les propositions 2), 3) résultent directement des propositions corres- 
pondantes du théorème 5.2. 

La première assertion du théorème découle de la seconde, puisque la 
classe des tests x vérifiant (6) est plus large que K., et par suite, 7 maximi- 
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sera E,r(X) dans la classe K en tout point 8 & [9,,8,]. Ceci exprime que + 
est un test uniformément le plus puissant sans biais. 

Reste à traiter le cas 8, = 8... Il est plus simple d'appliquer le lemme 5.2. 
Prenons un point quelconque 8 + 8, et cherchons le maximum de la quan- 
tité E,x(X) sous les conditions 


E, r(X) = €, E, r(X)T(X) = €E, T(X). (8) 
On se retrouvera de toute évidence dans les conditions du lemme 5.2 si l’on 
posem = 2,/f, = fo,,f2 = To. ,J3 = fo,e, = €,e, = EE, T(X). En vertu de 
ce lemme, E, x atteindra son maximum sur la fonction 


Y&) = f 1 si f,(x) > k, Jo, (X) + K:T(x)fs (x), 
O si f(x) < Ki 9, x) + KT (x) fo, x). 


Considérons la dernière inégalité qui peut être mise sous la forme 


C(0)  @6)-46,»Tw) 

—— € Ù <Kk, +K,T(x). 

c(8,) D 
Il est clair que pour tous c, < c, on peut toujours choisir £, et &, de telle 
sorte que cette inégalité soit équivalente à 


C|<T<0C;. 


Ceci prouve que le test (5) maximise E,x(X) sous les conditions (7) si seule- 
ment C;,,p;,i = 1, 2, sont choisis dans (5) de façon à ce qu’on ait (7) (ou 
(8)). Ce test sera visiblement uniformément le plus puissant sans biais, puis- 
que la classe des tests x vérifiant (8) est plus large que K,, et par suite, x 
maximisera E,x(X) dans X' aussi. Pour parachever la démonstration du 
théorème, il nous reste donc à montrer que 


LEMME 2. Pour 0 < € < 1, l'équation (7) admet une solution en c:et p;, 
i = 1,2. 


DÉMONSTRATION. Nous prouverons ce lemme comme le lemme 5.1 en 
admettant pour simplifier que la P,-distribution de T(X) est continue, 
c'est-à-dire que P, (T(X) = c) = 0 pour tous les c. 

Rappelons que la densité de la distribution de 7 par rapport à une 
mesure » peut être supposée égale à g,(1) = c(8)e“ (cf. $ 5). Les équations 
(7) et (8) seront alors équivalentes à 

c2 
E,.(1 — r(X)) = c@,) ['e"r(d) = 1—e, 
ci 
C2 C2 (9) 
E, (1 — r(X)TCX) = c@,) | te r(dt) = (1 — e)c@,) | te" v(dt). 


Ci Ci 
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En désignant r(1) = 1,m = Es, T(X) = c(6,) | te‘ y(dt}), on peut mettre 
les équations (9) sous la forme 


C2 


c(,) [e”"(dt)=1—e, 
L (10) 


c2 
c@,) [rG)e"y(dr) = (1 — jm. 


Ci 


Nous sommes arrivés à un problème confondu avec celui posé dans le 
lemme 5.1 à la seule différence que la distribution de densité r(f )£89 .(t) peut 
être une fonction généralisée (c’est-à-dire prendre des valeurs négatives). 
Dans ces nouvelles conditions, il faut poser f, = m. Pour le reste, les rai- 
sonnements du lemme 5.1 ne subissent pas de changement. 


$S 7*. Tests invariants 


Dans ce paragraphe nous étudions une autre méthode de restriction de 
la classe des tests, basée cette fois-ci sur la notion d’invariance. 

Supposons que X € {P,} et que {P,} est une famille invariante. Rappe- 
lons les notations et les notions nécessaires (cf. $ 2.19). Soit donné un 
groupe G de transformations mesurables g de %°” dans lui-même. On dit 
qu’une famille {P,] est invariante par le groupe G sipourtoutgeGet8e6 
il existe un élément 8, € 6 tel que 


P, (Xe À) = P,(8XE€ A), 


quel que soit À € B ”,. 

Les transformations g de l’espace © définies par g0 = 8, sous les condi- 
tions (4,) forment un groupe G (cf. & 2.19). 

DÉFINITION 1. On dira que le problème de test de l'hypothèse H, = {8e 
€ 6.) contre l’hypothèse H, = 8e 6,),6, U 6, = 6, est invariant si sont 
remplies les deux conditions suivantes : 

1) La famille {P,) est invariante par G. 

2) Les ensembles 6, et 6, sont invariants par g e G, c’est-à-dire que 
g0, = 6,,i= 1,2. 

Si un problème de test d’hypothèses est invariant, il est naturel de le 
résoudre à l’aide de tests invariants. 

DÉFINITION 2. On dit qu’un test x est invariant si x(X) est une 
statistique *) invariante par £ : 


f(£x) = r(x) pourtouslesxe 7", gecG. 


*) Voir note de la page 188. 
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Si x est un test non randomisé et Q,, la région d’acceptation de l’hypo- 
thèse H, l’invariance de x exprime que gQ@; = Q,,7 = 1,2. 

L’adéquation de l’usage des tests invariants se comprend le mieux sur 
des exemples. Au $& 2.19 on trouvera une discussion générale sur l’interpré- 
tation de g comme un changement de variables et sur l’invariance des statis- 
tiques correspondantes par ce changement. 

EXEMPLE 1. Les exemples les plus simples se rapportent au cas où le 
groupe G est trivial, c ’est-à-dire que pour tout g la transformation g est la 
transformation identique e de l’espace ©. 

Supposons que X € P, 2 et soit à tester l’hypothèse H, = {0e [o,,0;,]] 
contre H,. Dans ce cas 


— LIT »e 
Sa00 = mr © | 55 à x) 


Il est évident que la famille &, ; est invariante par le groupe G des trans- 


formations orthogonales g (les rotations) de l’espace 7°”, et de plusg = e 
pour tout g. Il est donc naturel d’envisager des tests dépendant de la seule 


statistique T(X) = Y x}. Puisque o-?T(X) EF, = H,, il vient 
ER 

T(X) ET, , pour « = 1/(20°), et l’on est conduit à tester l’hypothèse 
H,={|œelx,,aæ;]},æ, = 1/(205), &; = 1/(20?), à l’aide de la statistique 
T(X) dont la distribution F, ,,, appartient à une famille exponentielle. 
Les résultats des paragraphes précédents nous permettent de construire un 
test uniformément le plus puissant sans biais de niveau 1 — € qui est favo- 
rable à H, si 


< T(X) < C2 (1) 
où oc; sont choisis de telle sorte que F,,,/2(RNIc,, c,]) = 
= Lo, n2CRN IC, CD = €. 

Signalons qu’on aurait pu construire le test (1) de cet exemple à l’aide 
du principe d’exhaustivité, puisque la statistique 7 est exhaustive. On sait 
en effet que toute l’information sur le paramètre o? est concentrée dans T'et 
le recours à d’autres statistiques (c’est-à-dire à une autre information sur 
l’échantillon) n’a pas de sens. 

Dans la suite, partout où cela sera possible, on ramènera immédiate- 
ment le problème posé à un problème sur la distribution de statistiques 
exhaustives. 

EXEMPLE 2. Soient X E & ,,H, = (oe{o,,0,]}. Alors 8 = (œ, o?)et 


à 
«x, 0 


la translation gX = X + c = (x, +c,..,x, + ©) induit la transformation 
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ga = a + © qui laisse invariante l’hypothèse H,. Si on limite l’étude aux 
statistiques exhaustives 
— dé — 


is) 
la transformation g nous donne 
Ti(&X)=x+0c, T,(gX) = T,(X). 


La statistique T, est donc invariante par le groupe G. En d’autres termes, le 
test invariant x basé sur des statistiques exhaustives doit être une fonction 
de T,. (On verra plus bas que tout test invariant x doit être fonction de T..) 
En vertu du $ 2.32onao-?T,€eT,; 4-12 et l’on est conduit au problème 
traité dans l’exemple précédent. Un test uniformément le plus puissant sans 
biais invariant sera de la forme c, < T, < cC:. 

EXEMPLE 3. Les deux exemples envisagés plus haut faisaient intervenir 
une distribution normale. La distribution de l’échantillon X était une dis- 
tribution normale multidimensionnelle de matrice des moments d’ordre 
deux diagonale. Il est utile de remarquer pour la suite que la famille des dis- 


tributions normales multidimensionnelles&_ ;,a«e R°”, o? = lol, i, j = 
= 1, ..., m, est invariante par le groupe G des transformations linéaires 
non dégénérées 

&x = (x S a)C, 
où C est une matrice inversible. En effet, nous devons nous assurer que 
pour une transformation g on a P.,(4) = P,(g-'A),oùP,= b, 20 = 
= (œ, 2), g A désigne comme toujours l’ensemble xe R" :gxe A].On 


a (ao = Vlol) | 
- l ] L 
Pr, 2 14) = ons | exp F 5 (x — œ)o”_°(x — a lé. 
8” lA 
Le changement y = gx nous donne 
P,. 28" 'A) = 
1 


* GC | Ta : 3 Eye y so)" je 


A 


Comme g -!y = yC-! + a, on peut mettre l’exposant de l’exponentielle de 
la dernière intégrale sous la forme 


& — (…æ«—- a)C)C-'!'o- (C1!) — (æœ — a)C)?. 
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Si donc l’on pose 
80 = g(x, 0?) = (ga, CTo?C) = ((œ — a)C, CTo?C), (2) 


FICA 2 (À ). (3) 


EXEMPLE 4. Soient des hypothèses H;, = [X € P, ,},æe %,j = 1,2, 
où P;., sont des distributions de densités f(x — a), j = 1, 2. En d’autres 
termes, il nous faut déterminer le type de la distribution de X à une transla- 
tion près. Il faut poser ici 8 = (v, æ), » = 1,2,a«€e ‘,;, et considérer la 
transformation gX = X + c qui induit la transformation g8 = (v,œ + c) 
dans l’espace des paramètres. Il est clair que les hypothèses H = = j), 
j = 1,2, sont invariantes par £g, et par suite, le problème de test de ces 
hypothèses est invariant. La statistique 


on obtient &  :(&7'4A)=% 


œ 


T= XX) —x,,..., X,_1 — X,) 


est invariante par g (comparer avec le $ 2.18). Sa distribution au point y = 
= ©,,...,y,_,) sous l'hypothèse A; aura pour densité 


J;'C) = (II J,0; + 2z)/(z)u(dz). (4) 


im] 


On voit que pour l’observation Y les hypothèses H:; se transforment en 
hypothèses simples en vertu desquelles les densités f; de Ÿ sont de la forme 


(4). Dans ces conditions, on peut se servir du lemme de Neyman-Pearson et 
construire un test le plus puissant x qui nous fera accepter H, si 


YF OM) > c. () 


Puisque ce test ne dépend pas de @, il sera un test uniformément le plus 
puissant de FH, contre FH, parmi les tests invariants basés sur la statistique 
Y. 

D’après les exemples envisagés il est souhaitable d’être sûr que les 
autres tests invariants sont fonctions des statistiques invariantes choisies. 
Ceci concerne surtout le dernier exemple, puisque dans les deux précédents 
le choix des tests était guidé aussi par des considérations d’exhaustivité. 

Introduisons quelques notions pour dégager les liens existant entre ces 
invariances. On dira que deux points x et x' de 2°” sont équivalents par 
rapport à un groupe G s’il existe un g € G tel quex” = gx. Puisque G est un 
groupe, l’espace 7” est partitionné en classes d’équivalence disjointes 
appelées orbites dans le $ 2.19. Pour obtenir une orbite, il suffit de prendre 
l’un quelconque de ses points x, et de lui appliquer toutes les transforma- 
tions g de G. Pour les transformations orthogonales de l’exemple 1 les orbi- 
tes sont des sphères centrées en l’origine des coordonnées. 
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Dire qu’une statistique 7 est invariante par G revient à dire qu’elle est 
constante sur chaque orbite. 

DÉFINITION 3. On dit qu’une statistique 7 est un invariant maximal si 
elle est invariante et si de 7 (x') = T(x)il s'ensuit quex” = gx pour un cer- 
tangeG. 

Ceci exprime qu’un invariant maximal prend des valeurs différentes sur 
des orbites différentes. 


THÉORÈME 1. Soit T un invariant maximal. Une statistique S est inva- 
riante si et seulement si elle dépend de X par l'intermédiaire de T, c'est-à- 
dire s’il existe une fonction & telle que S(X) = &(T(X)). 


Pour simplifier l’exposé nous laisserons de côté l’importante question 
de la mesurabilité de +. Signalons seulement que cette mesurabilité aura 
lieu dans les exemples envisagés dans ce paragraphe *). 

DÉMONSTRATION. Si S(x) = g&(T(x)), on a S(ex) = Yw(T(gx)) = 
= @(T(x)) = S(x)et par suite S est invariante. Pour prouver la réciproque 
il faut montrer que 7 (x) = T(x')entraîne S(x) = S(x'). En effet, la rela- 
tion 7 (x) = 7 (x°) entraîne l’existence d’un g tel quex’ = gx. CommeS 
est invariante, il vient S(x) = S(x°). « 

Considérons à titre d'exemple le groupe G des translations 


gx =x+C= (x, +cC,...,x, + C). 


Nous avons déjà signalé que la statistique Y(x) = (x, —x,,...,x,_, — x,) 
était un invariant. Montrons que c’est un invariant maximal. En effet, de la 
relation Y(x) = Y(x )= (x, — x,,.….,x,_, — x,) il s'ensuit que x, — 
— X, = X; — x, pour tous les i = 1,...,n — 1. En admettant que x, — 
— X, = c,ontrouvequex” = x; +c,i= 1,...,n,x" = x + C = gx,ce qui 
exprime que x° et x sont équivalents. 

Nous pouvons retourner maintenant à l’exemple 3 et affirmer que le 
test (5) est uniformément le plus puissant de tous les tests invariants, puis- 
que ces derniers sont, en vertu du théorème 1, des fonctions de Y et, par 
suite, il n’existe pas de test invariant plus puissant que (5). 


En s’inspirant de ce qui précède, le lecteur peut s’assurer que la statisti- 
que Ÿ x? de l’exemple 1 est un invsriant maximal. 
1a) 
S’il existe des statistiques exhaustives, il est plus commode de réduire le 


problème primitif d’abord à un problème sur la distribution de statistiques 
exhaustives et d’appliquer ensuite les considérations d’invariance comme 


*) Pour plus de détails voir par exemple [50], [91]. 
22—4195 
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ñn 

dans l'exemple 2 où la statistique T, = Y (x; — x}? est visiblement un 
im) 

invariant maximal dans l’observation (x, T.;). 

Signalons une fois de plus, en conclusion de ce paragraphe, que 
l’approche liée à l’invariance consiste à réduire les problèmes de test 
d’hypothèses à des problèmes plus simples relatifs à la distribution d’inva- 
riants maximaux. Dans les nouvelles conditions qui sont plus simples, il est 
souvent possible de construire un test le plus puissant ou un test uniformé- 
ment le plus puissant. De ce point de vue le « principe d’invariance » est 
voisin des « principes » d’exhaustivité et d’absence de biais en vertu des- 
quels le problème primitif se réduit à un problème portant sur des statisti- 
ques exhaustives ou sans biais. 


$ 8*. Lien avec les régions de confiance 


1. Lien entre les tests et les régions de confiance. Lien entre les proprié- 
tés d’optimalité. Les notions de région de confiance et de test sont étroite- 
ment liées entre elles. Rappelons la définition de la région de confiance qui 
a été donnée au $ 2.31. 

Soit X € P,,0€e 0. 

DÉFINITION 1. On dit qu’un sous-ensemble aléatoire 6° = 6"(X,e) 
d’un espace de paramètres 6 est une région de confiance au seuil 1 — € si 


P,(O"(X,e)30)2 1—-e (1) 


pour tous les 0 € 6. 

Il est évident que la région de confiance généralise l’intervalle de con- 
fiance. La signification est la même : la région de confiance recouvre la 
véritable valeur du paramètre avec une probabilité > 1 — €. 

Désignons 


N(B,e)=fxe 2": 0EO0"(x,e)]. (2) 
Les relations 
0eEO0"(x,e) et xef(6,e) (3) 


seront alors équivalentes. 

La définition de la région de confiance suppose que l’ensemble {(6, €) 
de (2) est mesurable, si bien que la probabilité de (1) a un sens et est égale à 
P,(X € (6, €)). 

Les régions de confiance et les tests de l'hypothèse H, = {8 = 8,] contre 
l’hypothèse concurrente H, = (8e 6,), 8, & 6,, sont reliés entre eux de la 
manière suivante. Supposons que pour chaque 8, est défini l’ensemble 
0, = 6.(6,)30.. 
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THÉORÈME 1. 1) Considérons pour chaque 0, un test non randomisé 
= Ô de niveau 1 — € de l’hypothèse H, contre H,, et désignons par (6, , €) 
la région d'acceptation de H,. Alors l’ensemble 


O°(X,e) = P6e0:XEe(,e) 


sera une région de confiance au seuil 1 — €. 

Réciproquement, si 0° (X, €) est une région de confiance au seuil 
1 — €, l’ensemble Q(6,, €) C Z°" défini dans (2) et pris pour région 
d'acceptation de H, déterminera un test de H, = {0 = 8,} contre H, = {fe 
e 0,(6,)) de niveau 1 — € pour tout 6,(6,), 8, é 6,(6,). 

2) Si un test x de région d'acceptation Q(6,, e) pour H, est uniformé- 
ment le plus puissant, l’ensemble correspondant 8° (X, €) minimise la pro- 
babilité 


P,(@"eO0"°(X,e)) pourtousles0, 8°,8e6,(8'), (4) 


dans la classe des régions de confiance au seuil 1 — €. 

La proposition réciproque est vraie : la minimalité de (4) exprime que 
l’ensemble correspondant (6, e) définit un test uniformément le plus puis- 
sant. 


Si le paramètre 8 est scalaire, les cas les plus fréquents sont : 6,(8*) = 
= 4 :0 +0']et6,(6') = {8 :8 > 8°} (ou {8 : 8 < 8° }). Dans (4) on aura 
affaire à une minimisation pour tous les 9” 0 pour le premier cas, et pour 
tous les 9° < @ pour le second. 

Ainsi dans (4) le théorème affirme qu’est minimisée la probabilité P, 
que dans la région de confiance 6* tombe n’importe quelle autre valeur 
0" + 8 telle que 8 e 6,(8°). Ceci nous fournit un procédé de mise en évi- 
dence des intervalles de confiance optimaux. 

DÉFINITION 2. Les régions de confiance pour lesquelles est minimisée 
(4) sous la condition (1) s'appellent régions de confiance les plus exactes (au 
seuil 1 — €) pour les alternatives 0” telles que 0 e 6,(8°). 

Une justification supplémentaire de cette notion d’optimalité de l’inter- 
valle de confiance sera donnée plus bas. 

Le théorème 1 exprime donc que l’« inversion » de l’ensemble {(6,, €) 
pour les tests uniformément les plus puissants fournit la région de con- 
fiance la plus exacte. Ceci étant, il est important de remarquer que cette 
procédure de construction des régions de confiance n’est pas liée à la 
dimension de 8. On peut également envisager des paramètres 0 de dimen- 
sion infinie et les identifier avec la distribution P de X.. Les relations d’équi- 
valence (3), où Q(8, e) = Q(P, €) est la région d’acceptation de l’hypothèse 
[X € P}, l'alternative étant {X € P, + P}, nous permettent de construire 
la région de confiance pour P. Par exemple, nous avons vu au $ 1.6 que la 


+ 
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statistique D, = Vn sup 1 F} (1) — F(t)l sous la condition X € P, oùF est 
fonction de répartition continue de P, ne dépend pas de F et peut être déter- 
minée. Nous pouvons donc trouver un d = d(e) tel que P(D, < d(e)) = 
= ] — €. Donc, la relation 


Vn Sup lF*(t) — F(t)l < d 


définit la région d’acceptation de l’hypothèse {X € P] pour un test de 
niveau | — €. 

Mais cette relation définit aussi la région de confiance pour F pour la 
simple raison qu’aucune procédure spéciale d’« inversion » n’est néces- 
saire, puisque cette inégalité est symétrique par rapport àFet F7. 

DÉMONSTRATION du théorème 1. Elle coule presque de source et 
s’appuie sur l’équivalence (3) en vertu de laquelle 


P,BGEeO°(X,e)) = P,(X € Q(6, €)) > 1 — €. 
Ceci prouve la première proposition. Pour établir la seconde, considérons 
une autre région de confiance 8" (X, €). Soit (8, e) le sous-ensemble cor- 
respondant de °°". On a alors 
P,(X e G(6, e)) = P,ÉGE O"(X,€) > 1-e, 
P,(X e G(6,, e)) > P,(Xe N(6,,€)) 


pour 8 € 6,(8,) et par suite 
P,G,e® (X, e)) > P,(6,e 0° (X,c)). <« 
Considérons maintenant un cas particulier faisant intervenir un para- 
mètre scalaire 6. 
2. Intervalles de confiance les plus exacts. 


THÉORÈME 2. Supposons que l'ensemble Q(6, e) du test uniformément 
le plus puissant étudié dans le théorème 1 est de la forme 


c,(@, €) < T(x) < C0, e), 
où C;(6, e) dépendent de façon monotone et continue *) de 0. Supposons de 
plus, pour fixer les idées, que c:;(68, e) sont strictement croissantes. Alors la 
région de confiance la plus exacte (au seuil 1 — €) pour les contre- 
hypothèses 0 ” telles que 8 € 6,(8") sera un intervalle de la forme 


cUT 9 <0<cTUT,e), 


*) Les propriétés de monotonie et de continuité de c,(9, e) résultent généralement des 
mêmes propriétés de la fonction de répartition P,(T(X) < c). Dans les notations du $ 2.31, 
c,6.e) = GS '(,) c,6,e) = GS (1 — €), où G, est la fonction de répartition de T(X), 
€; + € = €. 
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où T = T(X)et c> (tr, e) sont les solutions des équations c;(8, €) = t par 
rapport à 6. 


Nous voyons donc que la procédure de construction de l'intervalle de 
confiance est au fond la même que dans le $ 2.31 à la seule différence que la 
statistique S est remplacée ici par la statistique 7 d’un test uniformément le 
plus puissant. 

La démonstration du théorème qui est évidente est laissée au soin du 
lecteur. 

Considérons maintenant plus en détail les intervalles de confiance uni- 
latéraux pour un 0 scalaire. On se sert de ces intervalles pour estimer le 
paramètre unilatéralement. Ces situations se présentent lorsqu'on estime la 
probabilité d’un événement indésirable ou, par exemple, la valeur de 
l'effort de rupture d’un nouvel alliage. 

Pour raison de symétrie on peut se limiter à l’étude de la borne de con- 
fiance inférieure 8 (X’, e) pour laquelle 


P,O (X,e)<02>1—-e. (S) 


DÉFINITION 3. On appelle borne de confiance inférieure la plus exacte 
au seuil 1 — € la borne 87 = 87 (X, €) telle que P,(8” < 8°) soit minimale 
pour tout 0° < 86. 

Supposons que w(8-, 8) est une mesure des pertes entraïînées par une 
« sous-estimation » de @ : w(9-,8) = Opour 8” > 8,etw(@”,8) > O pour 
0 < 8 ; ceci étant, w(8-, 8) croît continüment lorsque 8 s’éloigne de 8, et 
E,w(8",08) < ©. 

La proposition suivante éclaire dans une certaine mesure la définition 3. 


LEMME 1. La borne inférieure la plus exacte 87 minimise E,w(8”, 8) 
sous la condition (5) et pour toute fonction w possédant les propriétés men- 
tionnées ci-dessus. 


DÉMONSTRATION. Soit 8 - une autre borne inférieure. Les accroisse- 
ments de d,w(u, 8) par rapport à u étant strictement négatifs dans le 
domaine u < 6, il vient 


9 
E,w(8”,0) = ( w(u,0)d,P,(807 <u) = -— | P,(07 <u)d,w(u,80)< 


6 
£ — | P,(6- < ud,w(u,0) = E,w(5”, 0). < 


Nous voyons donc que la manière dont les régions de confiance les plus 
exactes ont été définies dans le cas d’intervalles unilatéraux est tout à fait 
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naturelle. On peut maintenant utiliser les théorèmes 1, 2 et les résultats du 
$ S pour construire des intervalles de confiance unilatéraux sous forme 
explicite dans le cas où le rapport de vraisemblance est monotone. 


THÉORÈME 3. Soit X € P, et supposons que la famille [P,] possède un 
rapport de vraisemblance monotone pour une statistique T(X) dont la 
P,-distribution G,(t) = P,(T(X) < t) est continue par rapport à 8 et t. 
Alors la statistique T dépend de façon monotone et continue de 8 (c'est-à- 
dire que G,(t) décroît continüment lorsque 8 croît, cf. définition 2.31.3). Si 
b(t, y) est la solution de l'équation G,(t) = 7 par rapport à 6, la borne 
inférieure la plus exacte 87 (X, €) au seuil 1 — € est égale à 


0 (X,e) = b(T(X), 1 — €). 


En d’autres termes, dans le théorème 2.31.1 on obtient la borne de con- 
fiance inférieure la plus exacte si pour S on prend la statistique 7. 

DÉMONSTRATION. Dans notre cas il faut poser 6-(8) = {f : t > 8] dans 
les hypothèses des théorèmes 1 et 2. Le théorème 5.1 affirme l’existence 
d’un test uniformément le plus puissant non randomisé de H, = (8 = 6,) 
contre H, = {8 > 6,}, de région d’acceptation 9(6,,e) = {X : T(X) < c] 
de H,,où c = c(8,,1 — e) = Gÿ'(1 — e) se détermine à partir de la condi- 
tion 

P;, (TX) < cC@,,1—-e) =1—-e. 
CARRE PT > 0) > € = Pa (TX) > ©) 
pour 0 > 8,. La dernière relation exprime que c(8,, 1 — e) < c(8, 1 — €) 
pour 0, < 6, c’est-à-dire que la fonction c(8, 1 — €) est strictement crois- 
sante par rapport à 8. La continuité de c(8, 1 — e) = Gj !(1 — €) par rap- 
port à 8 résulte de celle de G,. 

Nous voyons que les conditions des théorèmes 1 et 2 sont remplies pour 
C:(@,e) = c(@, 1 — €), et par suite, la région de confiance la plus exacte est 
l’intervalle Jc-!(T(X), 1 — €), œf, où, comme déjà vu au théorème 
2.31.1,07!(T,1-e) = b(T,1-e). « 

On construirait exactement de la même façon la borne supérieure la 
plus exacte 8 * (X, €). 

Supposons maintenant que 87 (X,e,) < 8*(X, e,) sont des bornes de 
confiance inférieure et supérieure au seuil 1 — €, et 1 — €, respectivement. 
Puisque les événements {87 (X, e,) > 8] et (8*(X,e,) < 8] sont disjoints, 
on a 


P,(OT(X,e,) < 8 < 0*(X,6,)) = 1—-e, —e;, 


et J97 (X,e,), 0* (X, e,)[ est un intervalle de confiance au seuil 1 — €, — 
ce €. 
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Soient w,(87,8)et w,(8*, 8) des fonctions de perte pour les bornes 87 
et 0*, possédant les propriétés décrites dans le lemme 1. 


LEMME 2. Supposons que w(8”,8*,8) = w,(8”,0) + w(8*,08). Alors 
l’intervalle de confiance ]0”, 0* [ formé par les bornes supérieure et infé- 
rieure les plus exactes minimise E,w(8”,0*, 0) sous les conditions 


P,@- >6)<e, P,@*<86)< e. 


Ce lemme est une conséquence évidente du lemme 1. Il indique que 
l'intervalle de confiance construit à l’aide des bornes inférieure et supé- 
rieure les plus exactes sera aussi optimal. 

Le théorème 3 nous permet de construire de tels intervalles sous une 
forme explicite pour les familles paramétriques de distributions à rapport 
de vraisemblance monotone. 

Nous proposons au lecteur de s'assurer à l’aide des remarques faites 
que les intervalles de confiance construits au $ 2.32 pour la moyenne et la 
variance de la distribution normale admettront des bornes inférieures et 
supérieures les plus exactes. 

Dans le théorème 1 et dans les considérations ultérieures on a supposé 
que le test uniformément le plus puissant n’était pas randomisé. Cette con- 
dition n’est cependant pas essentielle. Tout test randomisé x peut être 
représenté comme un test non randomisé par l’introduction d’une observa- 
tion supplémentaire Ÿ indépendante de X et uniformément distribuée sur 
[0, 1]. En effet, considérons pour le nouvel échantillon (X, Ÿ) la région cri- 
tique 

. = {G@,y):r@x) > y}, 


c’est-à-dire posons ô(X, Y) = 1 si (X, Y)e {, et ô(X, Y) = 0 sinon. Pour 
toute distribution de X on a alors 


P(CX, Y) = 1) = P(x(X) > Y) = [P(x(X) > y)dy = Er(X), 


(4) 


et par suite le test à est équivalent à x par ses paramètres. 

Comment utiliser cette circonstance pour construire des intervalles de 
confiance dans les hypothèses du théorème 3? Supposons pour simplifier 
que là statistique 7 (X) est à valeurs entières (nous avons vu que l’absence 
de tests uniformément les plus puissants non randomisés est due au seul fait 
que la distribution de T est discrète). L'observation S(X, Y) = T(X) + }, 
Y E U,, conserve alors toute l’information contenue dans T(X), puisque 
T(X) est la partie entière de S(X, Y). En choisissant un c(8, e) non entier, 
la recette du test uniformément le plus puissant de niveau 1 — € sera la sui- 
vante : accepter l’hypothèse FH, si 


S(X,Y)< cU,,1— 6). 
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Nous avons ainsi construit les ensembles {(0, €). Il ne reste maintenant qu’à 
les « inverser » à l’aide du même procédé qu'avant. Nous obtenons la 
borne inférieure 

0 (X,Y,e) =c"'(T(X) + Y,1—-e), 


où c-! est la fonction inverse de c par rapport au premier argument. A la 
forme d’écriture même, on voit que pour déterminer 8” il faut effectuer 
une observation supplémentaire Y. 

EXEMPLE 1. Soit X € B,,. Supposons qu’on s’intéresse à la borne supé- 
rieure p* au seuil 1 — € pour la probabilité p = P(x, = 1) = 1 — P(x, = 
= 0). La famille de distributions {B,] est exponentielle et vérifie les condi- 


tions du théorème 3, où il faut poser T (X) = y x,. Considérons l’obser- 


il 


vation ; 
S=Yx+}, YEU,.:. 


im] 


Sa densité en un point fe [0,n + 1] est C{lpl1(1 — py'-ll. Notons G, (t) 
la fonction de répartition de cette densité. Dans ces conditions, p* sera 
solution de l’équation G,(f) = €. 

3. Régions de confiance sans biais. Revenons maintenant aux régions de 
confiance les plus exactes. Le théorème 3 nous permet de déterminer les 
bornes inférieures et supérieures les plus exactes en nous basant sur le fait 
que dans bien des cas il existe un test uniformément le plus puissant pour 
les hypothèses unilatérales {9 > 8,} et [8 < 8,] concurrentes de l’hypothèse 
de base {8 = 8, ). Si l’on essaye d’appliquer directement les théorèmes 1 et 2 
à la construction des intervalles de confiance les plus exacts, il faudra exi- 
ger l’existence d’un test uniformément le plus puissant de l’hypothèse {8 = 
= 0,} contre l’hypothèse {8 + 6,}, ce qui est très rare. L’issue est de res- 
treindre naturellement la classe des intervalles de confiance envisagés 
d’après le même principe que pour les classes des tests étudiés dans les $$ 6, 
7. Plus exactement, introduisons les notions de régions de confiance inva- 
riantes et sans biais. 

Supposons comme précédemment qu’à tout 8 est associé un ensemble 
6,(6), 9 & 6,(6). 

DÉFINITION 4. On dit qu’une région de confiance 6 * (X, €) pour 8 au 
seuil 1 — € est sans biais pour les contre-hypothèses 0° telles que 8 € 
e 6,0”) si 


P,(O e60"(X,e)) < 1—e  pourtousles0,0",8e6,(8"). (6) 


La région 6° (X, €) est dite simplement sans biais si (6) est vraie pour 
tous les 9” - 6. 
L'absence de biais pour la région de confiance exprime que /a probabi- 
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lité de recouvrir une fausse valeur de 8 ” est au plus égale à celle de recouvrir 
la vraie valeur. 

DÉFINITION S. Les régions de confiance pour lesquelles (4) est minimi- 
sée sous les conditions (1), (6) s’appellent régions de confiance sans biais les 
plus exactes (au seuil 1 — €) pour les contre-hypothèses telles que 0 € 
e 6,(0°). 


THÉORÈME d. 1) Les tests non randomisés sans biais engendrent, en 
vertu de l’équivalence (3), des régions de confiance sans biais, et récipro- 
quement. 

2) Si 0 (6,, e) est pour chaque 8, e @ la région d'acceptation de l’hypo- 
thèse {8 = 6,] contre l’hypothèse {8 € 6,(6,)] par un test uniformément le 
plus puissant non randomisé sans biais, l’ensemble correspondant 6° (X, 
e) sera la région de confiance sans biais la plus exacte, et réciproquement. 


DÉMONSTRATION. Elle répète intégralement celle du théorème 1 à 
laquelle il faut ajouter seulement que la propriété d’absence de biais se con- 
serve lorsqu’on passe des tests aux régions de confiance et réciproquement. 
En effet, les relations (1) et (6) sont équivalentes à 


sup P,(XEN(G,,e) < 1—-e< P,(XEe 0(6,,e)). 
5€; 0) I 


Si r(X) est la fonction critique des tests non randomisés du théorème 
(r(X) = 0 si X e 96,, €)), on obtient 


E,r(X) = 1 — P,(X e Q(6,, e)), 


inf E,r(X)>e2>E, r(X). 
8e0,(0,) ; 
Ce qui est visiblement la propriété d’absence de biais équivalente à (6). < 

Si l’on se sert des résultats du $ 6 pour construire la région de confiance 
sans biais la plus exacte pour le paramètre 8 d’une famille exponentielle, on 
obtiendra le même intervalle J9-,89* [ qu’avec un rapport de vraisemblance 
monotone, c’est-à-dire un intervalle dont 8” et 8* sont respectivement les 
bornes inférieure et supérieure les plus exactes au seuil 1 — €e/2. 

4. Régions de confiance invariantes. La définition suivante utilise les 
notations et notions du paragraphe précédent. Soit {P,] une famille de dis- 
tributions invariante par G. 

DÉFINITION 6. On dit qu’une région de confiance 6° (X, €) est 
invariante *) par un groupe G si 


0° (gX,e) = g0°(X,e) (7) 
pour tous les g e G. 


*) Si l’on s'en tient à la remarque faite dans la note de la page 188, il serait plus logique 
d’appeler équivariante une région de confiance vérifiant (7). 
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Cette notion a la même signification que celle d’un estimateur équiva- 
riant ($ 2.19). Si les applications g et g sont traitées comme un changement 
de système de coordonnées préserveant la distribution, alors (7) exprime 
que la région de confiance ne depend pas du système de coordonnées dans 
lequel sont exprimées les données initiales. 

DÉFINITION 7. On dit que 6° (X, €) est une région de confiance inva- 
riante la plus exacte au seuil 1 — € si est minimisée P,(8° e O°(X, €)) 
pour tous les 8° + 6 dans la classe de tous les 6° vérifiant (7) et la condi- 
tion P,BE O0" (X,e)) = 1 -e. 

Supposons que {(0, , e) est la région d'acceptation de l'hypothèse H, = 
= {0 = 0,] contre l’hypothèse (8 + 8 ,} pour un test invariant de niveau 1 — 
— €. Signalons qu’il existe une différence fondamendale entre les défini- 
tions d’un test invariant et d’une région de confiance invariante (cette dif- 
férence n’existerait pas s’il fallait que g89(0, e) = ((£8, €) et non pas 
£8Q(0, e) = N(8, e)). De ce fait la correspondance entre les tests invariants 
uniformément les plus puissants et les intervalles de confiance invariants les 
plus exacts est plus compliquée que dans les théorèmes précédents. 

Considérons un groupe d’applications G et supposons que pour tout 6, 
il existe un sous-groupe G {8,] de G laissant invariant le problème de test de 
l'hypothèse H, = {0 = 6,}. En d’autres termes, 80, = 0, pour g e G[6.]. 

THÉORÈME S. Supposons que 6° (X, €) est une région de confiance au 
seuil | — € invariante par G. Alors : 

1) La région {(6, e) = {x :80e 0° (x, €)] sera invariante par G{6] pour 
chaque 6. 

2) Si la région (6, , e) qui correspond à 6" (X, €) est la région d'accep- 
tation de H, contre l'hypothèse {8 Æ 8 ,] pour un test uniformément le plus 
puissant, invariant, de niveau 1 — €, alors 0° (X, €) sera la région de con- 
fiance invariante la plus exacte. 


DÉMONSTRATION. 1) Soit g e G[6]. Alors g8 = 8, 


gN(6, e) = {ex :80e0"(x,e)] = (x :0€e0°(g''x,e)] = 
= {x:0eg-'0"(x,e)] = {x :g08e 0° (x, e)] = 
= {x :0€e0"(x,e)] = 9(6, €). 


2) Soit 0° une autre région de confiance invariante au seuil 1 — €. En 
vertu de la première proposition, il lui est associé un test invariant de 
niveau 1 — € de région d'acceptation (6, , e) de H.. 

Puisque par hypothèse 


P,(X e N(6,,e)) > P,(X € 86, e)), 
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il vient 
P,@,Ee0°(X, e)) > P,U6,e 8° (X, e)) 
pour 0, # 0. « 


EXEMPLE 2. Soit X € er, 2- On demande de déterminer la région de 


confiance la plus exacte pour le paramètre 0°, æ étant inconnu. Nous avons 
vu dans l’exemple 2 du paragraphe précédent que la famille P., 2 était 


invariante par les translations gX = X + csig(æ, o2) = (œ + c, o?). La 


statistique S$ = —— Ÿ (x; — x)? est un invariant maximal construit à 
im] 

l’aide d’une statistique exhaustive. De plus, l’hypothèse H, = {o = a,] est 
invariante par G. Conformément à l’exemple 7.2, un test uniformément le 
plus puissant, invariant, sans biais pour AH, est de la forme 

h, ,o7< (n — 1)S$ < h; ,0f, (8) 
où h, , se déterminent à partir des conditions (cf. condition (6.7) du théo- 
rème 6.1) 


P(#;., << X: =; < h;.) = | et 
Etxii5 hi, < x < h2,,) = ( — e)ExS_,, 
x € H,_.. 


La région de confiance 6° (X, €) correspondant à (8) est l’intervalle 
(n — 1)Sé/h,. <o?<(n-— 1)S3/h,.. (9) 


Cet intervalle est visiblement invariant par g, de même d’ailleurs que le 
test (8) (dans cet exemple G[o,] = G pour tout o,). Donc, d’après les 
deuxièmes propositions des théorèmes 4 et 5, l’intervalle (9) est une région 
de confiance invariante sans biais la plus exacte au seuil 1 — €. 

EXEMPLE 3. Soit X € er, 2- On demande de construire la région de 


confiance la plus exacte pour le paramètre æ, ao étant inconnu. On a 


_- _: A 
Le = pr © 35 Ÿ Me?) 


La famille& _ sera invariante par le groupe G des transformations linéai- 
resgX = aX + bsil’on poseg(æ, o) = (ax + b, ao). Le couple d’observa- 
tions (x, S2) forme une statistique exhaustive. Il est aisé de voir qu’elle ne 
permet pas de construire une statistique invariante par G. Mais pour tout 
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æ, on peut exhiber un sous-groupe G[œ,] des transformations gX = a(X — 
— @,) + @, par lequel la statistique (x — æ,)/S, sera un invariant maxi- 
mal. L'hypothèse H, = {œ = @œ,]) reste invariante par G{a,]. En étudiant la 
densité de (x — a 1)/S, on démontre à l’aide des méthodes du $ 7 (ces consi- 
dérations seront omises pour leur complexité *) que pour tout o il existe un 
test uniformément le plus puissant, invariant, sans biais de l’hypothèse H, 
contre l’hypothèse {x # œ,} pour lequel la région d’acceptation de FH, est 


Vnix-— aœl/So<7,, (10) 
où 7, se détermine à partir de la condition P(I#,_,l > 7) =e,t,_, € 
ET, _.. 

La région de confiance correspondante 6 * est de la forme 
X— 7, S0/Vn <a <x+7,So/Vn. (11) 


Il est immédiat de voir que cet intervalle de confiance est invariant 
(8° (&X, €) = g0° (X, e)). Le test (10) sera invariant par G [«,] en vertu de 
la première proposition du théorème 5. L’intervalle (11) sera un intervalle 
de confiance sans biais invariant le plus exact (uniformément en o) au seuil 
1 — € en vertu de la deuxième proposition. 

Nous avons donc établi dans ce paragraphe que tous les intervalles de 
confiance construits au $ 2.32 étaient optimaux dans un certain sens. 


8 9. Approches bayésienne et minimax de test d’hypothèses multiples 


1. Tests bayésiens et minimax. Les approches bayésienne et minimax 
ont été décrites au $ 4. Les définitions nécessaires qui y ont été données 
seront rappelées au fil de l’exposé. 

Supposons comme précédemment que l’on teste l’hypothèse H, = (8e 
€ 6, } contre H, = {8 e 6.) au vu d’un échantillon X € P,. 

L'approche totalement bayésienne implique que 8 soit choisi au hasard 
avec une distribution a priori Q sur 6 = 6, U 6,. La distribution Q induit 
des distributions Q; sur 6, i = 1, 2, et des probabilités g(i) = QG e 6,), de 
sorte que Q = g(1)Q, + g(2)Q:. Désignons par H0, l'hypothèse que8e 6, 
est choisi au hasard avec la distribution Q,. D’après cette hypothèse la den- 


sité de X est 
Jo, &) = | f(x )Q; (dx). 


Il est convenu de toute évidence (cf. $ 4) que sur 6; sont définies des tri- 
bus € ; sur lesquelles sont données Q; et que f,(x) est mesurable par rapport 
aÇ,x B”,. 


+) Pour plus de détails cf. [50]. 
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Des résultats des $$ 1 et 2 il s’ensuit que le test bayésien XQ de Ha, con- 
tre Ho, utilisé dans le problème décrit ci-dessus sera de la forme 


1 si Jo. (X) > Jo. (*), 
rQ(X)= 4 p si falX) = fo (X), (1) 
O0 si Jo. (X) < Jo, (#), 
où c = g(1}/q(2), et p € [0, 1] est arbitraire. 
L'approche partiellement bayésienne est liée au test de l’hypothèse Ho, 
contre Ho, dans le cas où il n’existe pas de distribution a priori entre Ho, et 
Ho, (définie par les probabilités g(1), g(2)). Posons 


K = {x : Eo,7(X) < €). 


On dira alors qu’un test xQ,Q, est bayésien dans KA s’il est le plus 
puissant de niveau 1 — € de HQ, contre HQ,. Le test xQ.,0Q, sera de la même 
forme (1), où c et p sont déduits de la condition Eo, 70,0, (X ) = €. 

On écrira xQ, ou FQ AU lieu de xQ,0, si l’un des ensembles 6, ou 6; 
dégénère en un singleton {8,} ou {8;). 

Dans les applications, on n’a pas souvent affaire à des problèmes dans 
lesquels les distributions Q; sont entièrement connues. Mais comme nous 
l’avons vu à maintes reprises, l’intérêt de l’approche bayésienne ne se limite 
pas à la seule possibilité de son application directe. Cette approche permet 
de construire des tests uniformément les plus puissants ainsi que des tests 
minimax (comparer avec les $$ 1, 5, 6). Nous utiliserons plus loin l’appro- 
che bayésienne pour construire aussi des tests asymptotiquement opti- 
maux. Supposons comme précédemment que 


K = {x à E,r(X)S €]. (2) 


On dit alors qu’un test x est minimax dans K, (resp. K®) si x e K, (resp. 
x € KQ) et s’il maximise 
inf E,r(X) = inf 8(6). (3) 
89; 88) 
Signalons que si les puissances B(9) = E,x(X) sont continues et les 
ensembles 6, et 6, sont tangents, on a 


B = sup inf BO)Se (4) 
re*, 60€6; 


et l’inégalité B > € ne peut être réalisée. Si donc l’on désire que la puissance 
(3) soit suffisamment grande (tout au moins plus grande que €), il faut envi- 
sager des ensembles 6, et 6, « séparés ». En d’autres termes, la région des 
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valeurs 6 telles que 8(6) est voisine de € doit être retirée en tant que région 
d’« indifférence » des tests et l’ensemble non tangent à 6, pris pour 6... 
Mais si les ensembles 6, et 6, sont tangents, fout test sans biais de K, 
sera minimax. En effet, pour les tests sans biais on a 8(8) = E,r(X) > €, 
0e 6,, et par suite, 6 = inf B(8) > € atteint son maximum en vertu de (4). 
2 


La réciproque est vraie dans le cas général: s'il existe un test minimax, il 
est sans biais. Ceci résulte de ce que 


PUR nr POUR 


(nous pouvons prendre x(X}) = €) et du fait que pour un test minimax on a 
inf 8(0) = £. 
80; 


Tout test uniformément le plus puissant sans biais * de la classe K . des 
tests sans biais est minimax dans K,. En effet, soit 8(0) la puissance de x. 
Pour tousreK et8e6,,ona 

BG) > BG), inf 66) > inf 80), 
88, 6e0; 


+ (5) 
I BG) = D: Lu (8) = D ne B(6). 


La dernière égalité s'explique par le fait que l’adjonction à K, des tests de 
K,, pour lesquels inf B(6) < € ne modifie pas la quantité de à dans (5). < 
2 € 


Dans le théorème 5.3 nous nous sommes servis des tests bayésiens pour 
chercher les tests uniformément les plus puissants. La proposition suivante 
« développe » en quelque sorte le théorème 5.3. Elle est analogue aussi aux 
théorèmes 1.2 et 2.11.2 et indique qu’il faut chercher les tests minimax dans 
la classe des tests (1) dont la forme est explicitement connue. 

THÉORÈME 1. Supposons qu'il existe des distributions Q; concentrées 
respectivement sur des sous-ensembles 6°?C 6,, i = 1,2, et des constantes 
cet p telles que le test *0,0, défini dans (1) possède les propriétés 

1) FQ,0, © KA, 


2) Eoroio, (À) = sup Eoroio, (A) (6) 


pour tous les 0 e 6}, 
3) E,x0,0,(%) = il Es 70,0: (%) (7) 


pour tous les 0 e O£. 
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Alors *Q,0, € K, est un test minimax de H, contre H,. 


Un couple de distributions Q.,, Q, douées des propriétés 2) et 3) est le 
plus défavorable en ce sens que pour tout autre couple de distributions Q;, 
Q;,0on a | : 

ne ÉsToo; < ul EsTo;o; 
où FQ;0Q; 65! un test de K', de la forme (1). 
La dernière proposition exprime que de tous les tests bayésiens (1) le 


test xQ,Q, POSsède la plus petite puissance garantie. 
DÉMONSTRATION. Puisque 


sup Eorao, (A) = | Esxoio,Q1(d8) = Eo,ro,o, = €: 
6 


il vient que xQ.0, € X, . La puissance garantie de x0.,0, est égale à (cf. (7)) 
ne E,r0,0,(X) — E,x 0,0; Q2(d6) a Eo,To,0; s Boo: (8) 


6; 
Soit maintenant x un autre test dans X de H, contre H,. Alors x sera 
simultanément un test dans X@1 de Ho, contre Ho,, car 


Eo,r(X) = À E,r(X)Q, (d8) < SUP E,r(X) < €. (9) 


Mais +00, est le plus puissant de HQ, contre Ho, dans K 4, donc, en vertu 
de (8) 
ns E,x0,0.(%) = Boo; > Eo,r(X) > CH E,r(X). (10) 


Ce qui prouve la première proposition du théorème. Soient maintenant 
Q, et Q: deux autres distributions quelconques sur 6, et 6, respective- 
ment. Le test xQ,Q, Sera comme xo;Q; un test dans X Aide Ho; contre Ho, 
puisque 
Eo; 70,0. (*) = | E,x0,0,(*)Q: (d8) < np E,x0,0,(#) < €. 
6; 
Mais le test x0:0; est le plus puissant pour ces hypothèses, donc en vertu de 


(8) 
Boo; © ÉoiToio; (4) 2 Eo;Toia; (4) = 


= [ Era, (490: (9) > inf Esro,o,() = Boo, < 
0, - 
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La principale difficulté soulevée par l’application du théorème 1 à des 
problèmes concrets est qu’il faut chercher (ou deviner) les distributions Q, 
et Q, les plus défavorables. L’invariance peut parfois nous être utile dans 
cette tâche comme nous le verrons dans les exemples du numéro suivant. 
Ces exemples présentent un intérêt en soi et seront utilisés dans la suite. 

2. Tests minimax pour le paramètre & des distributions normales. 

EXEMPLE 1. Soit X = x, € ®,, ; un échantillon de taille n = 1 suivant 
une distribution normale à m dimensions de moyenne à = (œ,, ..., æ,) et 


m 
de matrice des moments d’ordre deux unité. Posons lœl? = D a? et consi- 
im) 
dérons le test de l’hypothèse H, = {læl < a] contre H, = {laœl > b},b > 
> a (il existe ici une région « séparatrice » a < lœl < b). 

Si par exemple X représente dans un canal de transmission les amplitu- 
des d’un vecteur-signal composé du « bruit » X, € #, , et du signal utile 
æ, læœl > b, les hypothèses H; pour a = 0 peuvent être alors considérées 
comme les hypothèses de la présence du signal utile. 

Vu que l’exemple envisagé sera utilisé à maintes reprises dans la suite, 
on énoncera sous forme de théorème la proposition relative à la forme des 
‘tests minimax. 


THÉORÈME 2. Les tests minimax x e K, de H, = {læl < a)contre H, = 
= {lal > b},a < b,auvudeXE%, sont de la forme 


1 SIX1>c,, 
O0 sinon, 


r(X) = { 


où c, est choisi à partir de la condition p, (a) = € et la puissance garantie de 
x est égale à p. (b) 


PU) = P(E, — 1) + E5 + … + El > c?), 
£, étant des variables aléatoires normales réduites indépendantes. 


DÉMONSTRATION. Commençons par des raisonnements généraux. La 
densité dex = (xt), …, x) vaut ici 


J.(x) = Bayer exp É > & — a)(x — a } 


où x7 est un vecteur colonne. D'où il vient que la famille de distributions 
étudiée est invariante par la transformation orthogonale gx = xC, où C'est 
la matrice d’une transformation orthogonale de R”. Ceci étant, il faut 
poser ga = aC. Les hypothèses H; seront invariantes par g. 

Supposons par souci de simplicité que a = 0. Si la distribution Q, sur 
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6, = {a : lœl > b] n’était pas invariante par g (ce cas se présenterait si par 
exemple elle était concentrée dans le voisinage d’un point quelconque «,), 
cette absence de symétrie aurait pu être utilisée lors de la résolution du pro- 
blème (sous la condition que nous venons juste de poser nous aurions eu 
presque affaire à un problème de test de deux hypothèses simples {æ = 0] et 
fæ = æ,) et nous aurions obtenu un test d’une grande puissance). Donc, 
une telle distribution ne peut être la plus défavorable. Pour l’être, il faut 
qu’elle soit invariante par g. Par ailleurs, il est clair que la pire des situa- 
tions est celle où toute la distribution est concentrée sur la frontière de 6, 
(plus des hypothèses sont voisines et plus il est difficile de les distinguer). 
On peut se livrer aux mêmes raisonnements généraux sur Q, sia # 0. 

Il semble donc naturel que les distributions Q, et Q, les plus défavora- 
bles dans notre exemple soient les distributions uniformes sur les sphères 
O0? = {æ : læl = a} et 65 = {a : læl = b}. Dans ce cas, le théorème 1 
affirme qu’un test minimax x sera de la forme (x) = rQ,Q. (x), où 
Q,Q (x) = 1 si 


exp f- 5 (x — v}(x — Ne > 


2 
65 
> c | exp F (x — vh(x — LS (11) 
2 V, 
e; 
et xQ,0,(x) = Osinon. Ici dW(v) désigne l’aire élémentaire de la sphère cor- 
respondante, V: = mes 6°, i = 1,2. 


Considérons n’importe laquelle de ces intégrales, celle de droite par 
exemple, et remarquons qu’on peut la mettre sous la forme 


exp f- Tu _ a}. | exp {xv?) + : 
ei 
L'intégrale est ici égale à 
Î exp {Ixlae,v7]dV(v)/V, V = mes 0°, 
6° 
où 6° est la sphère unité, e, = x/Ixl. Si donc l’on pose 
#() = [exp [re,u7}dV(), (12) 
é: 


23—4195 
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la région d’acceptation (11) de FH, devient 
Y(Ixlb) > cy(ixla) (13) 


(par c on désigne des constantes qui ne sont pas nécessairement confondues 
avec celles de (11)). Or ÿ(f) ne dépend visiblement pas de x, puisque l’inté- 
grale (12) ne dépend pas du sens du vecteur e,. Donc 


vG) = [exp {tv;,}dV(v), 
é 
Où v, est la première composante du vecteur v. 

La fonction ÿ(f) est convexe et strictement croissante sur [0, œ[ puisque 
ÿ'"(0) = Oetÿ"”(t1) > O pour f > 0. Il s’ensuit que l’inégalité (13) (ou (11)) 
est équivalente à 

Ixl > c. (14) 


On reconnaît visiblement un test invariant. Assurons-nous qu’il remplit 
bien les conditions 1, 2 et 3 du théorème 1, ce qui exprimera qu’il est mini- 
max. 
On a 

E,x0,0,(X) = P,(XT > c) = 8, (x : 1x — al > c})). 
Il est clair que cette probabilité ne change pas lorsque le point « se déplace 
sur la sphère læl = const. Elle ne dépend donc que de læl et par suite 


Eros, = PUE - al?> c2) = 


L P(S (E, — @œ,) > ct) = P(E&, — lœl}? + #3 + … + £2 > c?), 
f=1 
où &£; € #,,, sont les composantes indépendantes du vecteur £. 
LEMME 1. La fonction p,(t) = P((E, — 1)? + £3 + … + El > c')est 
une fonction de |t|\ strictement croissante pour tout c. 
Ce lemme entraïne 
E,xo,0.(#) = p(lal) < p.(a) si lal < 
E,To,0.(*) = p(lal)>p,.(b) si laœl > b. 
Ces relations sont équivalentes aux conditions 2) et 3) du théorème 1. Pour 
que le test xQ Q soit un test de niveau 1 — €, nous devons poser c égal à la 
solution c, de l’équation p.(a) = €. Le test xQ,Q, est donc un test minimax 


de niveau 1 — € et sa puissance garantie est égale à p. (b). < 
DÉMONSTRATION du lemme 1. On peut se limiter aux valeurs { > 0, 


puisque p. (1) = p.(-t). 


UE 
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Traitons d’abord le cas où m = 1. Désignons la fonction p. (ft) par p(t). 
On a 


pt)=PGE, —-112> ce?) = dt — €) + 1 — (1 + c). 
Donc, la dérivée par rapport à f est égale à 
| 
(1) = e-t-ch/2 _ e-(c+1Ÿ/2] = 
pt) TE [ 


= I e-(*+"#/2[ect — e-4]> 0, 


V2r 


et la fonction p(f) est strictement croissante pour { > 0. 
Pour m > 1 la fonction p.(f) est le produit de convolution de la fonc- 
tion p(t) = p(t, c?) et de la distribution du x? à m — 1 degrés de liberté : 


PU) = [pG,c?- u)dH,,_,(u). 


(0) 


Il est évident que c’est aussi une fonction strictement croissante de £ pour 
t > 0. «< 

Faisons la remarque suivante sur le théorème 2. Supposons pour simpli- 
fier que a = 0. L’hypothèse H, = {« = 0] devient alors simple. Si l’on 
construit un test le plus puissant pour chaque contre-hypothèse « e 6,, on 
obtient un test de la forme 


xa7 > C. 


Ceci exprime que chaque direction & = ot, «€ 05, t > 1, possédera son 
propre test le plus puissant de niveau 1 —- € 


xal > C,, (15) 


où c, dépend uniquement de €, puisque E,(Xaÿ) = 0, Vi(Xaÿ) = 
= la)l? = b. Mais la région critique d’un test minimax (invariant) doit 
être indifféremment sensible à toutes les contre-hypothèses. C’est pourquoi 
cette région est la réunion de demi-espaces (15) qui a la forme de l’extérieur 
d’une sphère. 

EXEMPLE 2. Supposons maintenant que X = x, € &, ,;, Où o° = lol 


est une matrice définie positive des moments d’ordre deux. Soit à tester 
l'hypothèse H, = {æo-?a7 < a?] = {lao-!l < a) contre l’hypothèse 
H;, = {ao ?a7 > b?} = {læo-!| > b},a < b. Le théorème 2 entraîne le 

THÉORÈME 2A. La région critique d’un test minimax de niveau 1 — e de 
H,, contre H, est de la forme 


xo”?xT > c? 
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et la puissance garantie est égale à p. (b), où c, est comme précédemment 
solution de l'équation p (a) = €. 


DÉMONSTRATION. Posons gx = xo et remarquons qu’en vertu de (7.3) 
P,,£(4) 7 P(«, D (8A ), 
où g(œ, E) = (æo, o?). Pour la boule À = {x-: lxl < c] on aura 
gA = {y = xo : xxT < c2} = {y : pa-2yT < ci], 


16 
be(A)= 8, 2x :xo 2x7 < c?}). on 


L’image de l’ensemble {œ : læl < a] par l’application g est l’ensemble 
(8 = ao : ax’ < a°] = (8 : Bo” ?BT < a°]. 

Donc, toutes les relations établies dans l’exemple 1 pour &, -(4) dans 
lal & a ou læl > b seront valables pour &, ({x : xo”?x7 < cî}) dans 
1Bo-'1 < a ou IBo-!l > b respectivement. 

Ce qui prouve le théorème 2A. <« 

EXEMPLE 3. Considérons de nouveau un échantillon issu d’une distri- 
bution normale &, ; et de matrice des moments d’orde deux unité. Mais 
contrairement à l’exemple 1 les hypothèses A; ne porteront que sur une par- 
tie des coordonnées du vecteur æ. Représentons æ sous la forme de deux 
vecteurs à = (œ' ,« ),oùa = (œ;,...,a/)etæ" = (@,,1,,...,a,) et soit 
à tester l’hypothèse H, = {la < a} contre H, = {læ”’| > b} au vu de 
l'échantillon À = x, = (x, ,, .…., x,,,,) de taille 7 = 1. Dans chacune de 
ces hypothèses, la quantité «’ peut prendre une valeur arbitraire. Procé- 
dons exactement comme dans l’exemple 1, mais prenons pour Q, et Q, des 
distributions uniformes sur les « sphères » 6? = {œ :læ”| =a,a’ = a}, 
65 = {a :lax"1 = b,a’ = «,]}, où a, est un point quelconque donné. Si 
l’on posex, = (X,,,,..., X3 /), Xi, = (Xi y4 pr. X1, y), ON Obtient en défi- 
nitive un test minimax 


Ix}' 1 >c,, 
où c, est solution de l’équation 
P(E,—a} +£3+...+E2 ,>cl)=e (17) 
(les facteurs exp !— : x” — «5x — aç)7 | se simplifient dans l’inéga- 


lité fo.(X)/ fa, (X ) > cet celle-ci se transforme en une inégalité de type 
(11)). Ce résultat est tout à fait naturel, puisque les coordonnées x, ; sont 
indépendantes ici, et par suite, le sous-vecteur x, ne contient aucune infor- 
mation sur œ ”. Donc, de l’échantillon X = x, il ne suffit de considérer que 
le sous-vecteur x;,°, et le problème se ramène alors à l'exemple 1. 

Le test des hypothèses de l’exemple 3 fait partie des problèmes mettant 
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en jeu un paramètre « fantôme ». Dans notre cas il s’agit du vecteur &°. 
Pour les raisons indiquées ci-dessus ce vecteur ne nous a en fait pratique- 
ment pas empêché de construire un test minimax qui est ipso facto indépen- 
dant de « . 

La situation est différente dans l’exemple suivant qui traite du cas plus 
général où les coordonnées x,, sont dépendantes. 

EXEMPLE 4. Soit X = x, € &, . Soit à tester l'hypothèse 


H,={«d-?aT<a?] contre H,={xd”?a7 > b?}, (18) 


où d 7 est une matrice semi-définie positive de rang m — [ < m, obtenue à 
partir de o-? en remplaçant par des zéros les éléments de / lignes quelcon- 
ques et des / colonnes de mêmes numéros. Pour fixer les idees, on peut 
admettre que pour la matrice définie positive ox ? d’ordre m — /, inverse de 
la matrice 
oi = E, 20% — œ'"")7(x; — æ”), 

formée par les m — / dernières lignes et colonnes de la matrice a? = lo,l, 
on teste l’hypothèse H, = (ao; ?x"7 < a?]} contre H, = {x”’o; 2x7 > 
> b°], où x;' et «”” désignent les mêmes sous-vecteurs de x, et « que dans 
l'exemple précédent. Le paramètre œ° peut être arbitraire dans chacune des 
hypothèses H.. 

Dans cet exemple la distribution de x, dépend généralement de a”. 
Orthonormons le vecteur x,. Posons 


= X,À, (19) 


où À = la;:i est une matrice triangulaire dont les éléments a; = Opourj > 
> i, et les autres sont choisis à partir de la condition y € #, ;, où 8 = 
= (8,,...,B,) = aA. Ceci est toujours possible, puisque de (19) il vient 


Y — X1, mm, m° 


Yen = 1 T X;,m@m, m=1 + Xi,m—14m-1,m—1? 


De là et des conditions 


E 20; La B.) = 1, 


a, 0“ 
E, 20: + B;)O,; Fe B;) = 0, Î F J, 
on obtient successivement les valeurs 


2 = 
An, m ES 1/0, n° 


On. mam, m— 1] + On a 


1mom-i,m—i 0, 
2 2 £ 
On.mlm,m-1 + 20.260 dr + On-i.m-10m-1,m-1 1, 
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La matrice triangulaire À est donc telle que 
E,:6-8)6-8)=E, 2476 — a)7(x; — a)A = ATo?A = E. 

La triangularité de A entraîne que le vecteur 8° = (B,,,, .…, B,) ne 
dépend que de x”, et réciproquement. Si l’on désigne par À, la matrice 
triangulaire d’ordre m — / formée des m — / dernières lignes et colonnes de 
À, on trouve de toute évidence que 8°” = a’ A;, A7 034, = E. L'image de 
l’ensemble 6, = {œ :&œ"”07?ax"7 < a?) est 

(8 :B = aÂ,a'o;?a"T< a?} = (8 :B'A7'!o;?A;!TB"T < a°] = 


= (8:8"8"T<a]={(B:18"1< a). 


Le « sous-paramètre » B° peut être arbitraire si œ ' l’est. 

Nous sommes arrivés au problème de l’exemple 3. Un test minimax de 
niveau 1 — € de H, contre H, est par conséquent de la forme y”y” 1» 0 
ou (A,A7 = 97°) 


ve 2 TT 


où c, est solution de l’équation (17). 
Le dernier exemple est le plus général des exemples 1 à 4. Il les résume 
de la manière suivante. 


THÉORÈME 2B. Si au vu d’un échantillon X = x, € &, On teste les 
hypothèses (18) liées à la valeur «ad -?a7, un test minimax de niveau 1 — € 
est de la forme 

xid”xT> 0e, (20) 
où c, se déduit de (17), m — l étant le rang de d 72. 
La puissance garantie du test (20) est égale à 


PE, —-b}+t,+...+1t,,> cc), te... 
Si l’échantillon X est de taille n, alors x € &, ,, sera une statistique 
exhaustive et un test minimax sera de la forme 
xd”-2xT > c/n. 
L’exemple suivant est de nature légèrement différente. 


EXEMPLE 5. Supposons comme dans l’exemple 1 que X = x, € PE 


est un échantillon de taille 7 = 1 issu d’une distribution normale m-dimen- 
sionnelle de moyenne & = (œ,, …, «,,). Supposons que H, = {« = O0] et 
que FH, consiste en ce que « appartient à un ensemble 6, ne contenant pas 
a € O,. Désignons par 6, l’adhérence convexe de ©, (le plus petit fermé 
convexe contenant 6.) et soit B le point de 6, le plus proche de l’origine des 
coordonnéës. Si 8 e 6, la distribution Q, concentrée au point 8 sera la plus 
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défavorable et x sera de la forme r(X) = 1 si 
(CX — BXX — BY < XXT + oc, 
OU, ce qui revient au même, si 
XBT/181 > c;, 


où c, se détermine à partir de la condition x € K.. 
En effet, il suffit de vérifier la condition (7). On a 


E,rx(X) = P,(X87/181 > c,), 


où XB7T/IBl E Bras. , de sorte que 


E,r(X) = 1 — d(c, — a«BT/181). 


Ceci signifie que E, r(X), « e O,, est minimisée par la valeur & qui mini- 
mise la fonction 8” /181. Mais il est évident que «87 > BBT = 1B1? pour 
tous les & € 6, de sorte que 


E,r(X) = inf E,r(X). « 
a€cO; 


Nous proposons au lecteur de construire un test minimax dans le même 
problème pour le cas où X € &, et o? est une matrice des moments 


d’ordre deux quelconque. 

3. Distributions dégénérées les plus défavorables pour hypothèses unila- 
térales. Soit X € P,, où 8 et les éléments x; de l’échantillon X sont réels. 

Soit à tester une hypothèse unilatérale H, = {8 < 8,} contre H, = {8 > 
> 6,} dans le cas d’une région d’« indifférence » 8, < 8 < 8, non vide. Il 
serait intéressant de savoir sous quelles conditions les distributions les plus 
défavorables seront concentrées aux points 0, et 8,. En effet, le test mini- 
max x de niveau 1 — € serait alors de la forme très simple 


1 si Jo, (X) > Jo, (X), 
rX)=S p si Je, (A) = Po, (X), @1) 
O si T5, (X ) < Jo (4 ), 


où p et c se définissent à partir de l'égalité Ey x(X) = €. 

Nous savons déjà que si le rapport de vraisemblance est monotone, un 
tel test sera uniformément le plus puissant et par suite minimax. La propo- 
sition suivante nous fournit une autre condition suffisante pour qu’un test 
soit minimax. 

THÉORÈME 3. Supposons que la densité f,(x) est telle que le rapport 
Ja: (x)/f,(x) ne décroft pas par rapport à x pour tout 8° > 6. Alors les dis- 
tributions les plus défavorables Q, et Q, seront concentrées respectivement 
aux points Ô, et 6,, et par suite, le test (21) sera minimax. 
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DÉMONSTRATION. Supposons tout d’abord que nr =: 1. D’après l’hypo- 
thèse du théorème, il existe des a < b tels que 


< 1 pour xe]-,a], 
Ja-(x)/fa(x) $ = 1 pour xe ]a, bI, 
> 1 pour xef[b, œlf. 
Comme r(x) est croissante, on a x(b) > x(a)et 
E,.r(X) - E,r(X) > 


> aa) | Vox) — (x)}u(dx) + +(b) | Vox) — f(x)u(dx) = 


© bd 


= (x) — x(a)) | Go-(x) — o(x)u(dx) > 0. 


b 


Sin > 1, pour obtenir une inégalité analogue, il faut se servir d’une 
intégration successive (d’abord par rapport à x,, puis par rapport à x,, et 
ainsi de suite) et du fait que x(X) est croissante par rapport à chacun de ses 
arguments. 

Nous avons ainsi établi que la puissance 8(9) = E,r(X ) est une fonc- 
tion croissante. 

Il s’ensuit que le niveau de x est 1 — e et que B(0,) = sup B(8), B@;,) = 

1 


— inf B(6). Ce qui exprime que toutes les conditions du théorème 1 sont 
00: 


remplies. Le théorème 3 est prouvé. < 

Si 4 est un paramètre de translation : f,(x) = f(x — 8), on démontre 
que f,.(x)/f,(x) sera monotone par rapport à x si et seulement si la fonc- 
tion — in f(x) est convexe (cf. [50]). 


8 10. Test du rapport de vraisemblance 


Dans les paragraphes précédents nous avons acquis de nombreux résul- 
tats sur la construction de divers tests optimaux. La conclusion importante 
que l’on peut tirer est que ces tests optimaux n’existent que sous des condi- 
tions très restrictives. La situation était à peu de chose près la même en 
théorie de l’estimation : les estimateurs efficaces n’existaient que sous des 
conditions contraignantes. Mais nous avons vu au chapitre 2 que les esti- 
mateurs possédant la propriété d’efficacité asymptotique, existent assez 
souvent, sous des conditions assez larges liées essentiellement à la régularité 
de la famille {P,}. Tel est le cas des estimateurs du maximum de vraisem- 
blance. 
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L’autre expression de l’optimalité asymptotique des estimateurs du 
maximum de vraisemblance consiste, comme nous l’avons vu, en ce que ces 
estimateurs sont asymptotiquement équivalents aux estimateurs bayésiens 
pour toute distribution a priori régulière donnée. 

En théorie de test d’hypothèses, le test du rapport de vraisemblance est 
un peu analogue à l’estimateur du maximum de vraisemblance. Sous des 
hypothèses larges il est confondu avec les tests optimaux, si ceux-ci exis- 
tent, et est asymptotiquement équivalent à un test bayésien dans le cas où 
6, = {8,} pour toute distribution a priori régulière donnée Q, sur 6,. Dans 
les prochains paragraphes nous établirons cette propriété ainsi que de nom- 
breuses autres propriétés asymptotiques du test du rapport de vraisem- 
blance. 

Donnons la définition du test du rapport de vraisemblance. Dans le cas 
paramétrique où Ÿ € P,, soit à tester l’hypothèse H, = {0 e 6.) contre 
l'hypothèse H, = 6e O;]. 

DÉFINITION 1. On appelle test du rapport de vraisemblance de H,, con- 
tre H, un test #{(X) de région critique 


sup f,(X) 


86 
R(X)=æ “2 >c. (1) 
sup ,CX) 


La constante c est généralement déterminée à partir de la condition 
à P,(R(X)>c)=e, (2) 


condition sous laquelle le test du rapport de vraisemblance aura un niveau 
égal à 1 — e. 

Parallèlement au test (1) on envisage souvent un test de nature équiva- 
lente (appelé aussi test du rapport de vraisemblance) de la forme 


sup f,(X ) fa (X) 


R (X)= = ; 3 
Lu sup f(X) sup (X) ” ® 
0€6, 0e0, 


La proximité de ces tests résulte du fait que pour 6 = 6, U 6,, 
. _— X , X » 
fa C0) = max (sup (2), sup 00) 


et par suite R,(X) = max {1, R(X)]. 
Si l’hypothèse H, est simple : 6, = {8,}, H, = {8 + 0,}, de sorte que 
6, = OX {8,}, alors pour les f,(x) continues par rapport à 8, on aura 


R(X) = RiCX) = fe (X)/fo (X). 
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De par sa forme le test (1) généralise de façon naturelle le test le plus 
puissant d’hypothèses simples du lemme de Neyman-Pearson. Bien que ce 
test ne possède probablement pas de propriétés d’optimalité exactes dans le 
cas général, il est souvent le meilleur asymptotiquement (cf. $$ 13 à 16). 

De nombreux tests minimax et invariants sans biais, étudiés plus haut 
sont des tests du rapport de vraisemblance. Considérons à titre d’illustra- 
tion les exemples 9.1 à 9.4 dans lesquels on a construit des tests minimax 
pour le paramètre & de distributions normales. Dans tous ces exemples, les 
tests minimax étaient des tests du rapport de vraisemblance. Prouvons-le. 
Les problèmes des exemples 9.2 et 9.4 ont été réduits, aux transformations 
linéaires près du paramètre, aux problèmes des exemples 9.1 et 9.3. Vu que 
le rapport de vraisemblance (1) n’est pas affecté par ces changements (les 
régions 6; étant modifiées en conséquence), il nous suffit de nous pencher 
seulement sur les exemples 9.1 et 9.3. 

Dans l’exemple 9.1 on a testé l’hypothèse H, = {læl < a} contre H, = 
= (lœl > b},a < b, au vu d’un échantillon X € &, , detaillen = 1 issu 
d’une distribution normale multidimensionnelle dont la matrice des 
moments d’ordre deux est une matrice unité. Un test minimax est de la 
forme 


IXI>c. (4) 


Dans ce cas, SUP fa(X) est défini par la valeur 
inf (X — a)(X — œ)7 = inf | X — œl?, 
a€6, œ€O, 


de sorte que pour la statistique R (X) de (1), on aura 


IC: — bÿ si IXI<a, 
In RCX) = = Xl _ pÿ + > UXI 4 SN a<iX|£b. 
- AE: af si IXI > b. 


Cette fonction est une fonction de | X1 continue strictement croissante. 
Donc, les régions (1) et (4) sont confondues pour des valeurs convenables 
de c. 

On propose au lecteur de s’assurer que le test (3) est aussi de la forme 
(4) dans cet exemple. 

Dans l’exemple 9.3, on a éprouvé l’hypothèse H, = [læ””|l < a] contre 
H;, = fla”1l > b},où a" = (æ,,,,.…, æ,,) est le sous-vecteur de æ, com- 
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posé des m — / dernières coordonnées, au vu d’un échantillon X € æ, £de 
taille un. Un test minimax est de la forme 


IX"1>0c, (5) 


où X ”” est composé des »# — / dernières coordonnées du vecteur X. Mais 
dans ce cas 
inf (X — a)(X — a)7 = inf (X° — "XX" — a”}?. 

œeO; a” :la”li<a 
On a une inégalité de même nature pour 6,. Tout se ramène donc à l’exem- 
ple 9.1, et les tests du rapport de vraisemblance (1) et (3) seront confondus 
avec (5). 

Dans les conditions du $ 5 les tests uniformément les plus puissants 
pour les familles exponentielles 


Fax) = ce TT h(x) (6) 


seront également confondus avec un test du rapport de vraisemblance. Le 
lecteur peut s’en assurer en remarquant que la fonction 


(8) = In c(8) = -In ([ eh (x)u"(dx)) 


est convexe, puisque w (8) = —E,T,6 (8) = —V,T < 0. De la convexité 
de # il s’ensuit que l’équation 


g (8) + T(X) = 0 


admet une solution unique pour l’estimateur du maximum de vraisem- 
blance 8* = Y(T) et que la fonction ÿ est monotone. Ceci étant, l’un des 
Sup fa(X) sera atteint au point 8*, l’autre, en 8, ou 8;. 

Î 


La vérification de cette assertion pour les familles normales &, - qui 
sont un cas particulier de (6) est accessible dans le $ 15. 

La situation est un peu différente dans l’exemple 9.5 où l’on teste 
l'hypothèse H, = {x = 0} contre H, = {x e O,]) au vu d’un échantillon 
X E &, &. On admet que l’ensemble 6, et son adhérence convexe ©, ne 
contiennent pas le point æ« = 0. Si le point B € 6, le plus proche de l’origine 
des coordonnées appartient à O,, il existe un test minimax qui est de la 
forme 


XBT > c. (7) 
Ce test n’est invariant par aucun groupe de transformations. Nous propo- 


sons au lecteur de s’assurer que dans ce cas le test du rapport de vraisem- 
blance sera différent de (7) et sera de la forme 


p?(X, 6,) ee p?(X, 0) <C;, 
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où 
p(X,0,) = inf LX — œl,p(X, 0) = 1 X1. 
ae) 


Montrons maintenant que sous certaines conditions le test du rapport 
de vraisemblance est invariant. Soit G un groupe quelconque de transfor- 
mations de %°” laissant invariant le problème de test de H, contre H,, et 
soit G le groupe de transformations £ sur @ correspondant. 


THÉORÈME 1. Si f,(x) est telle que 
Jo XX) = C(g,x)/5 (x), (8) 
le test du rapport de vraisemblance est invariant par G. 


Signalons au sujet de la condition (8) qu’elle est toujours remplie si u est 
la mesure de Lebesgue et g une transformation préservant cette mesure 
(une translation, une rotation). Dans ce cas, c(g,x) = 1. Pour la contrac- 
tion, C(g,x) = const. 

DÉMONSTRATION du théorème 1. Vu que 8, = 6,,i = 1,2, on aura 


: sup Je x) _ sup cG,x JR @) 


b ps . 
(gx) sup Jo(ex) à c(2,x)/5 x) sup fx) (x). < 


Les autres propriétés du test du rapport de vraisemblance sont exami- 
nées dans les $$ 11, et 13 à 16. 


$ 11*. Analyse séquentielle 


1. Remarques préliminaires. Jusqu'ici nous avons toujours considéré 
que la taille n de l’échantillon X = X", était fixe. Sous cette condition nous 
avons cherché les tests jouissant de telle ou telle propriété d’optimalité. Par 
exemple, dans le cas élémentaire où l’on a testé deux hypothèses simples 
H,={XE P,},i = 1,2,0ona vu qu’il existait un test le plus puissant x de 
niveau 1 — €, de la forme (cf. théorème 2.1) 

1 si f(x) > (x), 
XX) = 4 p Si f(x) = (x), 
0 si f(x) < i(X), 
où c et p se déterminent à partir de la condition E,r(X) = € et f(x) sont les 
densités des distributions P., i = 1, 2, par rapport à une mesure y. 
Est-il possible d'améliorer cette procédure statistique ? Certainement 


pas dans les conditions formulées. Mais si l’on renonce à fixer la taille de 
l’échantillon, c’est-à-dire si le nombre #7 d’observations est traité comme 
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une variable aléatoire dépendant des observations déjà réalisées, alors ces 
améliorations sont possibles. On entend par là qu’il est possible de réduire 
le nombre des observations nécessaires à la construction d’un test de para- 
mètres donnés. Cette circonstance est essentielle pour les expériences oné- 
reuses. 

Le principe de cette amélioration peut être expliqué sur l’exemple sui- 
vant. Supposons que des distributions P, et P, ne sont pas absolument con- 
tinues l’une par rapport à l’autre et qu’il existe des ensembles B, et B, de 
8 ,, tels que f,(x) > 0,/,(x) = 0 pour x e B,,et f,(x) = 0,f,(x) > 0 
pour x € B,. Il est alors clair que si x, € B, (resp. x, e B,), on peut affirmer 
indubitablement que l'hypothèse H, (resp. H,) est vraie. Ceci étant, on n’a 
nul besoin de poursuivre les observations. 

Si donc l’on ne procède pas à nr observations d’un coup, mais successi- 
vemnent, en tenant compte des résultats des observations précédentes, on 
peut réduire le nombre n. 

L'introduction de la procédure séquentielle est très naturelle du point 
de vue bayésien. En effet, le test bayésien étudié au $ 2 suggère d’accepter 
l’hypothèse FH, si la probabilité a posteriori g(2\ X) de cette hypothèse est 
> 1/2. Ceci étant, la région critique contiendra entre autres aussi bien des 
échantillons X pour lesquels g(21 X) est proche de 1 (l’acceptation de H, 
est logique pour de tels X) que des échantillons X pour lesquels g (21 X) est 
proche de 1/2. Il serait naturel de considérer que ces derniers « ne suffisent 
pas » pour prendre une décision et impliquent des observations supplémen- 
taires. De plus, de même que dans l’exemple ci-dessus, la probabilité a pos- 
teriori g(2\ X) peut être élevée dès les premières observations et il est alors 
possible de prendre une décision sans poursuivre les observations (dans 
l’exemple mentionné, g(21X) = 1 pour X = x, e B, pour toute distribu- 
tion a priori (q(1), g{(2)), g(2) > 0). 

Nous considérons plus bas une procédure séquentielle de test de deux 
hypothèses simples donnant lieu à la plus grande réduction possible du 
nombre d’observations. 

2. Test séquentiel bayésien. Commençons par la position bayésienne du 
problème et désignons par g(1) = g,g(2) = 1 — gqg les probabilités a priori 
des hypothèses H, et H,. La probabilité a posteriori de l'hypothèse H, 
après les observations X = X, sera égale à 


qGJCX,) 


A 
LORD DA) + a OA) 


(1) 


On réalisera les observations successivement et pour chaque 7 on calculera 
les valeurs g(21X,), n = 1, 2, (ou g(11X,)). Dans le plan (7, y) consi- 
dérons une frajectoire aléatoire des probabilités a posteriori (une ligne 
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polygonale aléatoire) issue du point y = g(2) pour r7 = 0 et prenant aux 
points n = 1,2, les valeurs y = qg(21X,). Cette trajectoire nous permet 
de construire le test de H, contre H, suivant : considérons dans le plan (n, 
}) deux frontières droites y = y,,i = 1,2 ; 0 < y, < y: < 1, pour la varia- 
ble g(21X,). On accepte l’hypothèse H, ou H, selon que la trajectoire 
qQIX,),n = 0, 1, …, quitte la première fois la bande (+,, y,) par la fron- 
tière inférieure y, ou supérieure y,. Nous verrons plus bas que la 
P-probabilité (i = 1, 2) que g(21X,) ne quitte jamais la bande (y,, y), 
c’est-à-dire la probabilité de l’événement 


M: < q(21X,) < V2, n=0,1, ) (2) 


est nulle. 

Le nombre » d’observations nécessaire pour accepter l’une des hypothè- 
ses (c’est-à-dire pour violer la double inégalité (2)) est visiblement une 
variable aléatoire markovienne (un instant d’arrêt) par rapport à la suite 
X1» X>, .… pour chacune des distributions P, et P,. De ce point de vue la 
règle d’acceptation des hypothèses mentionnée est séquentielle. Elle 
s’accorde bien avec les principes qui régissent le comportement de tout un 
chacun : une décision est prise une fois que les observations permettent de 
réduire suffisamment l’indétermination qui affecte l’objet étudié. 

Le test construit dépend de g = g(1) et du vecteur y = (y,, y;). On le 
notera à, .. Montrons qu’il est optimal. A cet effet, introduisons tout 
d’abord fa notion générale de test séquentiel dont les caractéristiques essen- 
tielles sont, outre les risques de première et de deuxième espèce, les moyen- 
nesE,»etE,r du nombre d’observations » nécessaire à la prise de décision. 

Soit donnée sur (2°, 8 %) une variable aléatoire » > 0 à valeurs entiè- 
res, markovienne par rapport à la suite x,, x,, .. ({v > n]e o(x,, … 
… X,) = 8 7). Appelons °°” l’espace des vecteurs (7, X,) tels que 
(X,)=n,X, = [X,],. Considérons sur 2” la tribu 8” engendrée par 
les événements {» = n, X,Ee B"), Be ”,,n = 0, 1, … Il est clair que 
toute distribution sur (Z, 8.) (ou sur (2°, 39 ©,)) induit une distribution 
sur (2°”, B”). 

DÉFINITION 1. On appelle test séquentiel à de H, contre H, un couple 
(v, Q), où N € 8 ” est la région d’acceptation de FH, (la région critique) et la 
variable aléatoire » est supposée être propre par rapport aux distributions 
Pet P,(P;,( < ©) = 1,i = 1,2). 

Dans les cas où l’on aura besoin d’indiquer que » et {2 se rapportent au 
test Ô on écrira »(6) et (6). 

Il est clair qu’on peut définir de façon équivalente un test séquentiel à 
l’aide d’une fonction mesurable bivalente sur °°”. Il est clair aussi qu’on 
peut donner un test séquentiel ô en construisant sa région critique (que l’on 
désignera eñcore par Q) dans l’espace °° tout entier. Mais une telle 
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application des régions et 27” X Q d'acceptation des hypothèses A, et H, 
dans l’espace °° ne nous fournit pas nécessairement tous les éléments de 

® : aucune hypothèse n’est acceptée pour ceux d’entre eux qui sont tels 
que »(X,) = ©. Mais en vertu de la définition, les P.-probabilités des 
ensembles de tels X,, sont nulles. 

Tout test non randomisé à est un cas particulier d’un test séquentiel 
lorsque »(ô) = ñn est constant (si »(ô) = 0, on prend une décision sans faire 
d’expériences). 

Le test séquentiel à est, comme tout test ordinaire d’hypothèses simples, 
caractérisé par les risques «;(ô) de i-ième espèce (i = 1, 2) : 


a;(ô) = P;((v, X,) (3 Q:), 


oùN,=0,9, = Z7X0Q,. Par ailleurs, comme déjà signalé, on caractéri- 
sera un test séquentiel par les moyennes Er, i = 1, 2. Il est évident que 
pour un test ordinaire ô construit au vu d’un échantillon X, on aura 
E»(ô) = n. 

Pour tenir compte de l’apparition de ces nouveaux facteurs dans la 
position du problème (c’est-à-dire des caractéristiques liées à ») on admet- 
tra que la réalisation de chaque observation implique des dépenses chiffrées 
par la quantité a. Il nous sera commode de caractériser aussi les pertes dues 
à une fausse décision par des valeurs différentes w, et w,. Plus exactement, 
on admettra que les pertes de i-ième espèce entraînées par une fausse déci- 
sion lorsque H; est vraie sont égales à w,, i = 1, 2. 

Avec ces conventions l’espérance mathématique R (q, ô) des pertes cau- 
sées par l’utilisation du test ô est égale à 


R(g,6) = qgla,@)w, + aËE,r(6)] + (1 — qglæ:6)w, + aE,r(6)]. (3) 


Cette expression s’appelle risque bayésien. Si l’on pose a = 0,w, = w, = 
= 1], on obtient une expression pour la probabilité d’erreur du test 6, que 
nous avons déjà utilisée à maintes reprises dans les $$ 1, 2. 

DÉFINITION 2. On appelle test bayésien un test séquentiel ô minimisant 
le risque bayésien (3). 

La proposition suivante établit l’optimalité (la bayésienneté) du test 
ô,,., construit au début de ce numéro. 

THÉORÈME 1. Pour a, w, et w, donnés, il existe des y, et y, tels que le 
test à, , est bayésien. 

DÉMONSTRATION. Désignons par 6, le test qui conduit à accepter 
l'hypothèse H; sans observations, de sorte que »(6,) = 0, a;(6,) = 0. 
Voyons d’abord dans quels cas le test ô qui minimise R (q, ô) est confondu 
avec à, ou ô,. Il est évident que 


R(g, 8) =(1-g)w,, R(g,ô;) = qgw.. 


368 THÉORIE DES TESTS D'HYPOTHÈSES [CH.3 


Soit K la classe des tests {6 = ô(X)] dépendant d’au moins une observation, 
c’est-à-dire la classe des tests Ô tels que »(ô) > 1. Il est évident que 
R(q, ô) > a pour ô e K. Posons 


R(q) = inf R(g, Ô). 


On a R(q) < ©, puisque le test 6 basé sur une seule épreuve (»() = 1) 
appartient à X. 

En vertu de la linéarité de R (q, ô) traitée comme une fonction de g,ona 
pour tout p € ]0, I[ 


R(pg;, + (À — p)q2) = inf LPR(q,, 6) + (À — p)R(g, 6)] 2 


> PR(q;) + (1 — p)R(q:). 


Ceci exprime que R (g) est une fonction concave. Comme a < R(q) < 
< œ, on en déduit que R (g) est aussi une fonction continue sur [0, 1]. 
Comparons maintenant les risques des tests 6, et ô e K en fonction de g (cf. 


fig. 5). 


0 1-Y2 W2  1-Y; 1 q 
W1t+tWo 


Fig. S. 


De deux choses l’une : ou bien R(q) > min R(q, ô;) pour tous les q 


| w W,Ww 
ceci correspond au cas où R [ 2 } > -__1_2_ } ou bien les équa- 
W, + W W, + W 


tions R(q, ô,) = R(q) et R(q, 6.) = R(q) admettent des solutions que 
nous désignerons respectivement par 1 — y,et 1 — y,,1—7,> 1—7,.1 
est évident que R(q) < min R(q, 6;) à l’intérieur de l’intervalle ]1 — ;, 
1 — y, [. Pour le premier de ces cas posons 
w 
RES PE 

Vi 2 W, + W2 
de sorte que 


R(1 — y,,6,) = R(1 — y,, 6:). 
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Des raisonnements précédents et de la figure 5 on déduit la recette opti- 
male suivante. On calcule 1 — y, et 1 — y, à l’aide des valeurs a, w, et w, 
qui sont données. Sig < 1 — y, ou, ce qui revient au même, 1 — q > y;, 
c’est le test 5, qui fournit le plus petit risque (c’est-à-dire qu’il faut accepter 
immédiatement l’hypothèse H,). Sig > 1 — y, (ou 1 — q < y,), c'estô, 
qui donne lieu au plus petit risque (et il faut alors accepter H,). Et ce n’est 
que sil — y, < 1 — y,,g€e]l — y2, 1 — y.[(oul - ge },,7,D qu'il 
faut utiliser un test de K, c’est-à-dire qu’il faut réaliser une observation. 

Raisonnons maintenant par récurrence. Supposons qu’on ait réalisé n 
observations et que l’on dispose d’un échantillon X#,. Avant la 
(n + 1)-ième observation on est placé devant la même alternative : soit ces- 
ser les observations et accepter immédiatement l’une des hypothèses FH, 
soit les poursuivre. Le fait que l’on ait déjà subi des pertes an est sans 
importance, puisqu'on ne peut plus y remédier. Seule la distribution a 
priori fait l’objet de notables changements. Le rôle des probabilités q (1) = 
= get g(2) = 1 — q incombe maintenant aux probabilités a posteriori 
q({iiX,)et g(21X,). Dans cette nouvelle situation la recette optimale pro- 
posée ci-dessus nous commande d’accepter H, si g(21X,) > y, et H, si 
q(lX,) < y1- SigQlX,) € Hr,, v2l, il faut poursuivre les observations. 
Mais cette recette n’est autre que celle du test ô, . . Nous avons donc trouvé 
des y; = y;(a, w,, w,) tels que le test ô, . minimise le risque R(q, ô). < 

Signalons que les nombres y;(a, w,, w.) ne changent pas lorsqu'on 
multiplie a, w, et w, par un même nombre : ceci découle de leur définition, 
puisqu’une telle opération conduit à multiplier tous les risques R (q, 6) par 
un même nombre. Donc, y; est en fait une fonction de deux variables seule- 
ment, par exemple a et w, si l’on admet que w, = 1 — w.. 

Qu'est-ce que le test bayésien 6, .? Il nous prescrit de ne pas réaliser 
d’observations dans deux cas : si y, = y, (ce cas se présente lorsque a est 
grand en regard de w, et w.) ou bien si g(2) < y, ou g(2) > y:. Dans les 
autres cas, il faut effectuer des expériences jusqu’à la première violation de 
la double inégalité 


Y1 <GQIX,) < y: 
ou, ce qui revient au même, jusqu’à la première violation de 


n90)  fX) , __n90) 


ee. Pre LE (4) 
G—y:)gQ) (4) (A —7Y)90) 


Ceci étant, on accepte l’hypothèse H, si pour la première fois est violée 
l’inégalité de droite, et l’hypothèse H,, si c’est celle de gauche. Sous cette 
forme la partie « variable » du test &, . n’est déjà plus liée à la position 
bayésienne du problème et nous pouvons désigner par l', et l, les bornes 


24—4195 
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inférieure et supérieure de (4) et considérer un test séquentiel ô., F = 
= T,,/r,), appelé test séquentiel du rapport de vraisemblance. Ce test fut 
introduit par A. Wald. 

3. Test séquentiel minimisant le nombre moyen d’observations. 


THÉORÈME 2. Soit T, < 1 < F,. Désignons par a, et @, les risques de 
première et de deuxième espèce du test 6... De tous les tests séquentiels à tels 
que (6) < æ,, (6) < >, le test 5, possède les plus petites valeurs E, (6) 
et E,r(6). 


Ce théorème exprime en particulier que si ô est un test construit au vu 
d’un échantillon X, de taille nr fixée tel que «,(ô) < æœ,, æ,(6) < @), alors 


Er(G.)<n, ài= 1,2. 


DÉMONSTRATION. Le test bayésien &, . envisagé dans le théorème 1 est 
défini par la collection de nombres (q, a, w,, w.,). Mais comme déjà 
signalé, la multiplication de a, w, et w, par le même nombre ne change pas 
les bornes y;, de sorte que à, . est en fait défini par trois paramètres, par 
exemple (g, a, w) si l’on convient que w, = wet w, = 1 — w. 

Aux termes de cette convention nous avons construit dans le théorème 1 
des nombres 7; = Yy;(a, w) pour lesquels le test à, . est bayésien. Nous 
aurons maintenant besoin de la proposition réciproque, Savoir que pour y; 
et y donnés, il existe des a et w tels que y,(a, w) = ;, c’est-à-dire des a et 
w pour lesquels le test 6, . est bayésien dans le problème mettant en jeu la 
collection (q, a, w). Cette proposition revêt un caractère technique et sa 
démonstration est assez compliquée (cf. [50]). Aussi l’adopterons-nous 
comme hypothèse *). 

Considérons donc le test 6. et pour g donné déterminons y; à partir des 
équations 


Es = r'. 
(1 — y,)(1 — g) 


Pour les valeurs obtenues y; = l,(1 — g)/(T;(1 — g) + g) cherchons les a 

et w pour lesquels le test Ô,. Sera bayésien dans le problème correspondant 

à la collection (g, a, w). Comme, < 1 < F,,ilvienty, < 1 — g < y,et 
v(ô,.,)2> 1. Ce qui exprime que à, , = Ôr. 


*) Nous ne prouvons pas non plus une autre proposition utile qui dit que pour les 
P;-distributions continues de la quantité Lo )/S,(X) et pour des @, Et æ, quelconques don- 
Hs. il existe des T', et l', tels que « ,(ô.) = a, «)(ôF) = æ,. Cette D TODOLLION est voisine des 
lemmes 6.1 et 7. 1, re sa démonstration est ‘jus Ompliquée. 
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Soit maintenant à un autre test tel que æ;(ô) < &;. Puisque le test ôg. 7 = 
= Ô- minimise le risque bayésien, on a 


qla;w + aEv(ô.)] + (1 — qhlax,(1 — w) + aE,r(6,.)] < 
< qla,(@)w + aE,v(6)] + (1 — g)læ,(6)(1 — w) + aE,r(6)]. 


D'où il s’ensuit que 
gE;rGr) + (1 — g)Er(6.) < Er») + (1 — g)Er(6). 


Le nombre g € ]0, 1[ étant arbitraire, il vient E,»(6.) < E,»(6), E,»(6.) < 
< E,r(6). <« 

Pour la démonstration nous avons appliqué le même procédé de com- 
paraison avec les tests bayésiens que dans les &8$ 1, 2, 5. 

Considérons quelques propriétés du test ô.. Désignons par N° les sous- 
ensembles de °° définis comme suit (4, = [X.],) : 


_. rc A) - 1 X) 
Q7 = fx. :F, < FX.) <F,,k=1,...,n LT) < ri} 


L’ensemble {5 se définit de la même manière, maïs il faut remplacer la der- 
nière inégalité par f,(X,)/f,(X,) > l,. Il est évident que les N°” ne s’inter- 


sectent pas, (, = (J {7 est la région d’acceptation de H;, »(6.) = n dans la 
ne) 


région fxe 7° :xen), 


Gr) = Ÿ POD= TS [| fxm(d)< 


ne] nl nnm 
0 


< ÿ | fa) 'u"(dx) = (1 — œ:(6r))/T;. (5) 
nm) /nNngn 


On établit de façon analogue que 

(Or) < r,(1 _ «;Or)). (6) 

Posons pour simplifier «;,(ô-) = æ;. Nous discuterons plus loin du degré de 
précision des inégalités 

| — e 2] 


T,<———, Fr,2 
- œ; Ta, 


ab) 


(7) 


24° 
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Etablissons maintenant les propriétés du test que l’on obtiendra en se ser- 
vant des relations (7) pour déterminer l'; à l’aide des &; donnés. Si l’on pose 
(o 4) ; 1 Le Le 2) 


la = a. » à; = a;(ôr), 


Tr, = 


en vertu de (7) on aura pour le test 6. obtenu 


D (8) 
D'où 
g HAT) om eo ai)e 


2 


En réduisant les inégalités (8) au même dénominateur et en les ajoutant, on 
obtient aussi 


œ + > < @; + >. 


Donc, si les «; sont petits, le test ô. donnera lieu à des risques «; dont 
la somme sera au plus égale à œ, + «æ, et chacun de ces &;" ne peut être que 
légèrement supérieur à «; et dans des limites que l’on connaît. 

EXEMPLE 1. Supposons que x; suit une distribution binomiale avec une 
PORN de succès égale à p. On demande de tester l’hypothèse H, = 

= {p = p,) contre H, = {p = p;,},p, < p,. Dans ce cas 


f2(X) = p3 (1 a 29 = (= _ P1) Ta (: — P) ) 
(À) pr (A ” P\y) ” 1(1 — P:) 1 — p; 
où 7, est le nombre de succès en 7 épreuves. Pour p, 


@; = 0,05, &; = 0,10 on obtient *) T, = 0,105, Tr; 
æ>; = 0,099, 


0,05, 12) = 0,17, 
18, a: = 0,031, 


E,r@ôr-) = 31,4, E;r(ô..) = 30,0. 


À titre de comparaison, si la taille de l’échantillon est fixée et les risques de 
première et de deuxième espèce égaux à 0,05 et 0,10 respectivement, il faut 
57 observanons. On voit donc que la procédure séquentielle réduit dans cet 
exemple presque de deux fois le nombre moyen d’observations. 


4. Calcul des paramètres du meilleur test séquentiel. Les relations (7) et (8) permettent 
d'établir un lien entre la borne l et les risques æ. ;@r). Voyons maintenant plus en détail le cal- 
cul du test ôk- 


*) Les données numériques ont êté empruntées à [50]. 
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a) Formules exactes. Dèsignons 


in 20%) , k=1,2,.. 
JS, 


A,=1T, i=1,2 


Le test ô,. peut alors être mis sous la forme suivante : si A, < 0 < À,, on effectue les observa- 
tions successivement et on somme les valeurs z, équidistribuées indépendantes jusqu'à ce que 
ñn 
la somme Z, = D z, atteigne pour la première fois l’une des bornes 4. Si l’hypothèse H, 
ke) 
est vraie, la promenade décrite sera dirigée en moyenne vers le haut, puisque 


£,X) 
E,z = in 2. f(x}u(dx) = p,@,,P,)>0 


(cf. lemme 2.6.1). On établit de façon analogue que E,z, = —-p,(P,,P,) < 0. 

Si les bornes À, s’éloignent de l’origine des coordonnées, ceci correspond (comparer avec 
(S), (6)) à une baisse des risques de première et de deuxième espèce. 

En termes de promenade {Z, } les ensembles N° deviennent 


D =(4, <Z,<4,,k=1,..,n-—1,2,23 A). 
Les ensembles N° seront de forme analogue. 
Désignons par n(1) la variable aléatoire égale à l’instant où la promenade aléatoire Z, = 0, 
Z,. Z;, … traverse pour la première fois le niveau t : 
@) minfk:Z,>1] pour {> 0, 
7 = 
min{k:Z,<t] pour 1< 0. 
Ceci est un processus de renouvellement correspondant à la suite {Z, ] (cf. [11], chap. 8). Les 
différences x(4,) = Z,ç4 de À, caractériseront les dépassements des niveaux À, dans la pro- 


menade [Z,] (cf. [11]). 
Pour le risque de première espèce, on peut écrire maintenant 


CDÉDRE ES 
2 


n=) ne) ar NQs 


| à Fe” #:09) =T'E(C"7:0) 0) 


où Q, = (J 95 est la région d'acceptation de H,. De façon analogue, 


nl 
© 


a@n)=T,E(e**1:0,), 0,= Um. (10) 
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D'après l’identité de Wald, pour Er, i = 1,2,» = v(ô_), on a 
E(Z) = E;z Er, i= 1,2. 


Comme Z, = 4, + x(A,) sur l’ensemble Q,etZ, = À, + x(A,)sur Q,, il vient 


| 
E,r = —— (x, A, + E,(x(A,) 50.) + (1 . a,)AÀ, + E,(x(4,) 5 0,)} 
E;z, 
(11) 
1 
Ep = {0-04 + E,0(4,)30,) + a41 + EG) 50) 
271 


Les seconds membres des formules (9), (10) et (11) peuvent être trouvés sous une forme 
explicite dans de nombreux cas. Ces formules sont d’une grande utilité dans les calculs appro- 
chés. 

b) Formules et inégalités approchées (pour de grands À , et A,). Nous avons déjà signalé 
que les grands 14.1, i = 1, 2, correspondent à de petits risques æ,(6,.). Considérons la valeur 


æ.(6.) = P,( sup Z, > 4.) = P(sup Z, > À,) -— 
1Vr l k<nA 1) k 2 l'e0 k 2 
— P,( sup Z,<4,, sup 2,2 4A,). (12) 

k&n(A,) kK>n(A;) 


La variable aléatoire (1) étant markovienne, le dernier terme de (12) n'excède pas les 
valeurs 


P,( sup (Z,- )>A,-2Z ) < P,(sup Z, > 4, - A). 
1 k> NA) k 1(4)) 27 <r4)) Dhs k 2 fl 


Puisque dans presque tous les cas pratiquement intéressants la probabilité u(4) = 
= P( sup Z, > À) détroit exponentiellement lorsque À croît (cf. par exemple [26], t. 2. On 
> 


peut tirer la même conclusion du chap. 10 de [11] où sont exposées les méthodes de calcul de 
u(A) *)), il vient que pour les grands | 4,1 la valeur u(A, — À) sera d’un ordre de petitesse 
supérieur à celui de u(4,). Ceci exprime en vertu de (12) que 


Or P CD m2) A) (13) 


de sorte que l’on peut négliger la deuxième borne pour les grands A, ct À, dans (12). On 
obtient de façon analogue l’approximation 


ô.)= P.(inf Z,<A.). 14 
ar) uns k 1) (14) 
Si les 1 4,1 sont grands et les «,, petits, les parties principales de (11) nous donnent 


A A 
Er = LEE Er = —? (15) 


E;z, Ez; 
On a aussi négligé la deuxième borne en établissant ces formules (qui peuvent être acquises 
également à l’aide des approximations E,» = En(4,) = A,/E;z,. La dernière relation résulte 
du théorème de renouvellement ({11))). 


*) Pour "plus de détails voir [9]. 
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La prise en compte des termes suivants rangés par ordre de petitesse dans (11) nous donne 


| 
Er = —— (4, + a,(4, — À,) + E,x,), 
121 (16) 
1 
E,» = —— (4, — a,(4, — À,) + E,x;), 
E;z, 


où œ, sont déterminés par les approximations (12) et (13), et les valeurs Ex, = 
= | jm E;x(4,), acquises par les méthodes du chap. 10 de [11]. 


Considérons maintenant les inégalités (8). Puisque x(4,) < Oet x(4,) > 0, ces inégalités 
découlent de (9) et de (10) si l’on remplace x(4,) par 0. Donc, la précision de ces inégalités est 
définie par l'erreur entraînée par ce changement. 

Si les variables aléatoires z, sont bornées, b, < z, < b,, il est alors évident que x(4.) < 
< b,,x(4,) 2 b,,eten plus de (5) et (6) on peut établir les inégalités contraires. Plus exacte- 
ment 


E — x(A —12— 
eG)=T5'E, te *2);0,) > rr'e-02(1 — a), 


æ(6.) > Pje1(1 — a). Sa 


Retournons à l'exemple 1 pour illustrer les relations obtenues. On a 


l:— = 
in 22 Pos Pr 


AC — P)) 1 — P; 


Z, a n 
Où », est le nombre de succès en n épreuves. Ceci exprime que pour la P;-distribution, z, prend 


= 
la valeur b, = In(p,/p,) = 1,224 avec la probabilité p, ct la valeur b, = In Pa 


= —0,135 avec la probabilité 1 — p,,i = 1,2. D'où il vient 
E,z, = —0,067, E,z, = 0,096, e°2 = 3,400, e°1 = 0,874. 


Des deux dernières valeurs, seule la deuxième est proche de 1, de sorte que seule la 
deuxième des inégalités (17) sera relativement exacte. En utilisant cette inégalité et (7) pour le 
test ôp: , On obtient 


0,102 = —"2 gi < —"2— = 0,117. 
1-a; (-a;)e! 


Ceci nous donne des bornes assez exactes pour la valeur l, = 0,105. Dans notre cas 
A, =inT, = -—2,254, A4, =InrT, = 2,890. 
En se servant des formules approchées (15), on obtient pour Er», i = 1, 2, les valeurs 
A;/E,2z, = 33,639, AÀ,/E,z, = 30,108. 
Nous voyons que les approximations mêmes les plus grossières, par exemple telles que 


(15), donnent une idée exacte des valeurs E,»’. Les résultats seront bien plus précis avec les 
formules (16). 
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& 12. Test d’hypothèses multiples dans le cas général 


Dans ce paragraphe on n’admettra pas que la distribution de l’échantil- 
lon appartient à une famille paramétrique. 

Le problème de test de deux hypothèses dans le cas général se pose dans 
les termes suivants. Soient % et , deux familles de distributions, telles 
que la distribution P de X appartienne à #, U Z,. On éprouve l’hypothèse 
H,={XEP,Pe &,] contre H, = {(X € P,PEe %,]. Le principe général 
de construction d’un test (non randomisé *)) x(X) = ô(X) est celui qui a 
été décrit au $ 4 pour le cas paramétrique. Plus exactement, on construit la 
région critique  C Z°” (souvent identifiée à la notion de test) qui est telle 
que FH, ou H, est acceptée selon que X € f ou X é 9. Le nombre 


1-e= inf P(X € Q) 
Pe :”) 


s’appelle niveau ou seuil de signification du test. La quantité 
B,®P) = P(XE 0), P E Ps, 


est la valeur de la puissance du test x au « point »Pe %,. 

Comparer les puissances 8, (P) des tests x lorsque l’ensemble Z, des 
contre-hypothèses P est très riche et construire les tests optimaux dans ces 
conditions est une tâche très difficile, voire même impossible. Le moins que 
l’on puisse exiger des tests dans ce cas est que pour toutPe , fixe l’on ait 


lim 8,(P) = 1. 


DÉFINITION 1. On appelle convergent (ou consistant) un test x possé- 
dant la propriété ci-dessus. 

L’essence des tests envisagés, de même que de tous les tests statistiques, 
correspond au principe fondamental de statistique mathématique évoqué 
au $ 1.4 et au $ 2.31. Sie est petit et que l’hypothèse F7, soit vraie, en utili- 
sant plusieurs fois un test de niveau 1 — € on se trompera (c’est-à-dire on 
tombera dans la région critique) en moyenne dans 100% des épreuves seu- 
lement. C’est pourquoi nous considérons qu’il est pratiquement impossible 
de tomber en une seule épreuve dans cette région lorsque À, est vraie. De 
sorte que si l’on se retrouve dans cette région, c’est que l’hypothèse avancée 
est fausse et l’on rejettera H,. On dit dans ce cas que les résultats de l’expé- 
rience sont en désaccord avec l’hypothèse H, du point de vue du test x de 
niveau 1 — €. 


*) Dans la suite, pour unifier les notations on désignera les tests statistiques par le 
symbole +, bien que dans ce chapitre ils soient en principe des tests non randomisés. 
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Les tests de l’hypothèse simple H, =1X%X € P,} contre l’hypothèse mul- 
tiple H, = {X € P + P,) sont très répandus. 

La construction des tests de l’hypothèse simple H, = {X € P,] repose 
généralement sur l’« écart » de la distribution empirique P° par rapport à 
P, au sens d’une certaine « distance » d(P, Q). Une propriété souhaitable 
de cette distance est que d(P, Q) = 0 seulement pour Q = P et aussi que 
d(P, Q) soit continue au « voisinage » du point Q = P, par exemple pour 
une métrique uniforme (sinon de petits écarts de Q par rapport à P risque- 
raient de conduire à de grandes valeurs de d). On rappelle que dans le cas 
paramétrique on a utilisé des considérations analogues pour construire les 
estimateurs du paramètre inconnu par le minimum de la distance. 

Supposons donc que d(P, Q) est une distance (pas forcément une métri- 
que) sur l’espace des distributions. Supposons que pour € > 0 donné on 
puisse trouver un c > 0 tel que 


P,(dP,,P;)>c)=e. (1) 
On construit un test de la manière suivante : 


0 sidP,,P;)<c, 
1 sinon. 


x(X) = { 
Il est évident que x est un test de niveau 1 — €. 
De même que dans le $ 3 on peut introduire la notion de test de niveau 
asymptotique 1 — € : 


lim P;(d@P,,P)>c)=e. (2) 


Les tests décrits sont souvent appelés tests d'ajustement (de l’hypothèse 
[X € P,}). On peut les construire d’une manière équivalente mais légère- 
ment différente. Soit donnée une fonctionnelle G (P) (ou une suite de fonc- 
tionnelles G, (P)) telle que GP) + G(P,) pour P + P,. On peut alors 
poser r(X) = 1si1G(P7) — G(P,)l > cetr(X) = Osinon, c étant déter- 
miné à partir des mêmes considérations que dans (1) et (2). Il est immédiat 
de vérifier que cette deuxième approche est équivalente à la première, puis- 
que si l’on connaît G on peut déterminer d(P, P,) = 1G(P) - G(P,)l 
(comparer avec le principe de substitution en théorie de l’estimation), et 
réciproquement, si la distance d(P, P,) est donnée, on peut construire une 
fonctionnelle G(P) = d(P, P,)(G(P,) = 0) vérifiant les conditions exi- 
gées. 

Si la fonctionnelle G est de plus telle que G(P°) = GP) pour X € P 
(c’est toujours le cas si G est une fonctionnelle de type I ou II (cf. $ 1.3)), /e 
test construit sera convergent. En effet, dans ce cas le nombre c = c(n) réa- 
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lisant l’égalité (2) doit tendre vers 0 (puisque P,(1G(P7) — GP,)l > 
> €) — 0 pour tout e > 0), et par conséquent, l’on aura G(P°) = GP), 
P(IGP;) - GP,)l > c(n)) — 1 pour chaque P fixé + P.. 
Considérons maintenant quelques tests d’ajustement bien connus qui 
sont des réalisations de l’approche décrite ci-dessus. 
a) Test de Kolmogorovy. Soit la statistique (la distance) 


DEP,,P;)= sup LE (4) — F(t)1, 


où F (r) et F(r) sont des fonctions de répartition associées aux mesures P° 
et P,. Au $ 1.8 on a établi que si F(f) est continue et X € P,, alors 


d,®P,,P;)= VnDEP,, P')= sup lw°(t)l, 


où w°(t) est un pont brownien. Ceci entraîne le 
THÉORÈME 1 (A. Kolmogorov). Si F(t) est continue, il existe alors 
lim P,(d,P,,P/)<x)=XK(x) = PCsup lw°(t)l < x). 


La fonction K(x) peut être déterminée sous une forme explicite. Elle 
vaut 


K(x) = ) (—1Ye- x, 


km —-œ 


On peut se servir de ce théorème pour construire des tests de niveau 
asymptotique 1 — €. La fonction K'(x) est tabulée dans de nombreux 
ouvrages de statistique mathématique. Pour la valeur e donnée on peut 
trouver dans une table la constante c = c, pour laquelle K(c) = 1 — €. En 
posant x(X) = 1 pour d,(P,,P;)> c,, on obtient un test d'ajustement de 
niveau asymptotique 1 — :. Il est immédiat de voir qu’il est convergent, 
puisque la fonctionnelle G(P) = sup LFRG) — F()l Gci FR) = 


= P({-, fr D) qui a servi à construire le test de Kolmogorov, est continue 
par rapport à F, pour une métrique uniforme et par suite, est une fonction- 
nelle de type II (cf. chap. 1), tellequeG(P;) . G (P) pour X € P. Reste à 


se servir des remarques faites ci-dessus sur les conditions de convergence 
d’un test. 


Les résultats du chapitre 1 nous permettent de déterminer le comportement asymptotique 
de la puissance du test de Kolmogorov par rapport aux contre-hypothèses voisines (cf. $ 3). 
Supposons que X € P, où la distribution P admet la fonction de répartition 


FR) = F(x) + p(x}n7 V2. G) 


$ 12] TEST D'HYPOTHÈSES MULTIPLES DANS LE CAS GÉNÉRAL 379 


On admettra pour simplifier que p (x) est continue et F(x), continue et strictement monotone. 
La puissance B(P) du test de Kolmogorov au « point » P sera égale à 


8@) = P(d,@P,,P°)> c) = P(sup 1F() — F°(1)lVn > c) = 
! 
= P(sup 1F,(4) - pt)n ="? F°IVn > c). 
! 


Le changement de variables = F} '(u), où Fÿ est la fonction réciproque de F,, nous 
donne 
PC sup lu — p(F$ Gun"? F°(FR (u))lVn > c), (4) 

(1 LE 
où U”(u) = F°(F$ '(u)) est une fonction empirique associée à la distribution U, , uni- 
forme sur [0, 1], de sorte que (4) est égale à | 

PC sup lu — U*(u) — p(F5 Gun l/21Vn > c). 

OGu<i 


Par ailleurs, F; !(u) — F7 (u), puisque F est strictement monotone. De là et de la conti- 
nuité de p, on déduit que 


lim B(P) = PEUR Lw°(r) — a(r)l > c),oùa(r) = p(F”\(r)). (S) 
n—œ ct 
On démontre que cette expression est minimale pour a(t) = 0 (p = 0). De ce point de 
vue, le test de Kolmogorov est asymptotiquement sans biais. 
b) Test de Mises-Smirnov (test w?). On conviendra que la distance entre 
les distributions P , et P” est définie par la statistique 
wi =d(P;,,P;)=n | (F(x) — F°(x)) dF(x), 


qui peut être également utilisée pour construire un test d’ajustement de 
niveau donné. Au chapitre 1 on a prouvé qu'’ici et dans le cas précédent, on 
a le 


THÉORÈME 2. Il existe une distribution limite telle que 


| 
lim P,(wi<x)=Q{(x)=P (! (w°(t))/dt < x) 
0 
La fonction Q(x) est de forme très compliquée (cf. [8]). Nous ne l’exhi- 
berons pas ici. 
La fonctionnelle 


GP) = | (F0) — F,(4))dF(t) 


étant une fonctionnelle de type II ($ 1.3), le test w? sera convergent pour les 
mêmes raisons que dans a). 


En appliquant les raisonnements du numéro précédent, on peut établir le comportement 
asymptotique de la puissance 8(P) du test w? pour des contre-hypothèses voisines P de la 
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forme (3). On trouve de façon analogue que 
BP) = PGÿ > c)— P([ (w°G) — at }dr > c), 


où a(f) est définie dans (5). La valeur limite obtenue est minimale comme (5) pour a(t) = 0, 
de sorte que le test w? est aussi asymptotiquement sans biais. 


Les deux tests considérés, de même que les autres tests d’ajustement de 
l’hypothèse H, = {X € P,) construits à l’aide de la distance d (P, Q), nous 
permettent d’obtenir immédiatement les régions de confiance pour la fonc- 
tion de répartition inconnue F(x) ou pour la distribution inconnue P, de 
l’échantillon X. En effet, la relation (1) (ou (2)) peut être traitée aussi de la 
manière suivante : la probabilité qu’un c-voisinage du « point » P° (pour 
la distance d) recouvre le « point » P, est égale à 1 — €. (Pour (2) on 
obtient une version asymptotique de cette assertion.) Ceci exprime (cf. $ 8) 
que le c-voisinage du point P° est une région de confiance au seuil 1 — € 
pour la distribution inconnue P,, X € P,. Le test de Kolmogorov par 
exemple, définit ce voisinage en termes de fonctions de répartition : c’est 
l’ensemble de toutes les fonctions F(x) telles que 


sup | F(t) — F°(t)l < c,/Vn, 
{ 


où c, se détermine à partir de (1). 

Revenons aux tests. Nous avons déjà signalé que l’on ne pouvait faire 
confiance aux niveaux de signification asymptotiques que pour les grands 
n. Si la taille de l’échantillon n’est pas élevée, il est nécessaire pour cons- 
truire les tests (plus exactement, pour trouver c = c,) de se servir des for- 
mules exactes pour la distribution de d(P,,P; ). Mais leur acquisition pose 
en principe de gros problèmes. A cet égard, les tests dits 7on paramétriques 
basés sur des statistiques dont la distribution ne dépend pas de la véritable 
distribution P, (ou ne dépend pas du paramètre 8 si X € P,) jouent un rôle 
important. 

Dans ce cas, les probabilités P,(4(P,, P”)< x) ne dépendent pas de 
P,, et par conséquent, on peut effectuer les calculs une seule fois, dresser 
des tables et ensuite les utiliser pour n’importe quelle distribution P.,. 

Le test de Kolmogorov et le test w? sont des tests non paramétriques. Ce 
fait a été établi dans le $ 1.6. 

Les tests non paramétriques servent aussi à éprouver des hypothèses 
multiples. 

c) Test du signe. Supposons que F(x) est la fonction de répartition de 
P,et que H, = {F(a) = p}, a étant un point donné. Il est évident que H, 
est une hypothèse multiple. L'hypothèse complémentaire est : H, = [X € 
€ P,F-(a) # p}. Dans ce cas il est naturel de se servir de la statistique sui- 
vante : désignons par »(X) le nombre des observations x; pour lesquelles le 
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signe de la différence x, — a est négatif. Pour région critique {, on prendra 
l’ensemble de tous les échantillons X pour lesquels 


v(X) € ]c,.c.f 


pour certains C, < C2. 
Si l’hypothèse FH, est vraie, on a 


P,GECX) = k) = Cip*( — pY'T*. 


Si donc l’hypothèse FH, est vraie, la distribution de »(X) est indépendante 
de P, et notre test est non paramétrique. Les nombres c; doivent être choisis 


tels que 
PE(X)e lc, QD2>1-e 


(l’égalité peut ne pas être réalisée, car »(X) est discrète). L’arbitraire dans 
le choix de c; peut être levé par la condition d’absence de biais par rapport 
aux variations de p. Dans l’ensemble ce problème est équivalent au test de 
l'hypothèse que la probabilité de succès dans une série d’épreuves de Ber- 
noulli est égale à p. On peut construire de façon identique des tests 
« unilatéraux » pour éprouver des hypothèses de la forme F(a) < p. 

Si l’on généralise le problème posé en considérant l’hypothèse F(a;) = 
= p,,i= 1,..,r, pour des valeurs a; et p, données, on obtient le test du x? 
qui est étudié en détail dans le $ 16. 

d) Test de Moran. On appelle ainsi le test de l’hypothèse {X € P,]. Soit 
Xq}» + Xm) l'échantillon ordonné associé à X. Supposons que P, admet 
une fonction de répartition F continue et formons la statistique 


M, _ E FO 4 1) FGw)}, (6) 


kK=0 


où nous conviendrons que F(x,) = 0, F(Xxm41) = 1- Le test de Moran 
rejette l’hypothèse [X € P,]siM, > c. 

Il est évident que ce test n’est pas paramétrique, puisque F(x,) € U, :. 
Il suffit donc d’envisager le test M, > c basé sur la statistique 


ñn 
_ 2 
M, = Ÿ in — Xw) 


K=0 


et destiné à vérifier l’hypothèse que la distribution de X# est uniforme. 

L’emploi de la statistique M, s’impose de lui-même dans ce cas, puisque la 

quantité Y y} atteint son minimum, si Y y; = l,aupointy, = … = 
ti]! im] 


= }, = 1/n. 
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La proposition suivante peut servir dans le calcul du niveau asymptoti- 
que du test de Moran. 


THÉORÈME 3. Si X € P,, alors 
Vn(nM,/2- DE, .. 


k 
DÉMONSTRATION. Soit £, € VF, ,,j = 1,2, Alors ÿ, = > t, € 
j=i 


E T,., et en vertu du corollaire 1.6.2, la distribution conjointe des diffé- 


rences 
Xe Xe — Xçpo 2er XX 19 À — X(n) 


est confondue avec la distribution conjointe de 


Er En 


..., ROSE EE 


a+! 


de sorte que *) 


n+i 
_— p-2 2 
M, ‘d n+1 D &; 


j=1 
La distribution de M, ne dépend pas de « et l’on peut poser & = 1. Alors 
Et? = D'(k + 1) = KI, VE; = 1, VE? = 20, 


Pa = = Ÿ &-De#r. 


j=1 


l n 
Um : (E2 — 2)6 #, ». 


On a ? 


n Pr + ÿ (E2 — > | 
nM j=i n(2n +n,vVn) __ 2+9,n-12 


n-17 ; = 
n+Y 
Fe 


2  (M+pVn} (+ pn VER ? 
É= n) 
LE 


M, — 2)Vn = Mn a = 2pan 2 


T+pn V2} ? (7) 


*) Le signe à exprime la coïncidence des distributions. 


$ 12] TEST D'HYPOTHÈSES MULTIPLES DANS LE CAS GÉNÉRAL 383 


m4 7e Ÿ G+2, 1-84, 


Et; = —2,V£; = EE — 8? + 16£?) — 4 = 4. 
Donc, n, — 4, € $&, , et en vertu des théorèmes de continuité on déduit 
de (7) que 
Vn(nM,_,/2- 1€ %,.. 


Ce qui équivaut à la proposition du théorème. < 


Montrons maintenant que le test de Moran est convergent. Considérons la statistique (6) 
pour X € P, où P est différente de P,. Sans nuire à la généralité on peut admettre que l’une 
des distributions P, ou P (P pour fixer les idées) est uniforme. Au sujet de F on sup- 
posera pour simplifier qu'il existe une densité continue f (1) = F'(1), concentrée sur [0, 1]. 
Alors, pour X € U,, , la partie principale de nM, sera égale à 


ñn n+]) 
a Vs ne n = Xe) 37 D VU, 1/8 le (8) 


K=0 Km! 


La loi forte des grands nombres nous dit que & ” ‘fe = 1 lorsque £ — œ. Donc, la partie prin- 


cipale (8) sera à son tour égale à 


D J'K/nXE/n. (9) 
k=1 


En appliquant de nouveau la loi forte des grands nombres (ou l'inégalité de Tchébychev), on 
trouve que cette expression converge en probabilité vers 


1 1 2 
2 PAUL > (fra) = 2. 


0 0 


L’inégalité sera stricte si / (1) # 1. Ceci exprime que pour X EP =U, <P 


0,1 l 


Vn(nM,/2— 1)=œ, lorsque n — ®, 


ce qui entraine, en vertu du théorème 3, que le test de Moran est convergent pour tout niveau 
fixé 1 — <. « 


Etant convergent, le test de Moran ne différencie pas toutefois les hypothèses voisines. 
Supposons que X € P = U, ,, 


FU)=t1+pltin""?, te (0,1), (10) 
p(0) = p{1) = 0, 
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et que la fonction p(f) est continûment différentiable. Alors 


n Li 
Mans - 03/2 se 2 ” - 
n'M,=n y Gen Xwy) + 2 D Gen — XP Gus 1) 
k=0 k=0 


= PGy) + Vn D ER, ,) - PR. (1) 


kK=0 


ñn 
La partie principale de la deuxième somme est égale ici à 2n y P Cu M x) ou 


ke0 
pour les mêmes raisons que dans (9) 


n | 
° 2 , = 
2 ÿY p'(k/n}X;/n - 4 (» (t)dt = 0. 
k=! 0 


Le dernier terme de (11) converge aussi en probabilité vers 0, puisque sa partie principale 
admet la même distribution que 


1 | s 
ne D Lo'(k/n)PE2/n, 


Ko! 
1 


2 
ou que = Lp‘()ldt — 0. Ce qui vient d’être dit exprime que pour la fonction (10) la sta- 
n 


0 
tistique n#”°M,/2 — Vn aura la même distribution limite®&, | que pour F(1) = 1. < 
Signalons que ce fait ne doit pas nous inciter à conclure hâtivement que le test de Moran 
est mauvais. C’est que s'il ne distingue pas des hypothèses voisines de la forme (10), le test de 
Moran distingue des hypothèses (voisines dans un certain sens) que les autres tests envisagés 
dans ce paragraphe ne sont pas en mesure de faire. Nous avons en vue les hypothèses relatives 
aux densités. 
Considérons l'hypothèse H, = IX € P|, où P a pour densité 


fu) = 2 si 2k3,<1< (24 + 1)A,, 
O si (24 + 1)A, < 1 < (2k + 2)A,, 


| 
où A, = 5N .N=N, > 0est un entier. Pour A, = o(n7 1/2), la fonction de répartition 
FR) de la distribution P sera telle que 


sup 1F,(0) — 1 = o(n”"?),. 
{ 


Ce qui signifie que l'hypothèse H, traitée comme une hypothèse relative à la fonction de 
répartition sera si proche de H, = |X € U,, , | que les tests de Kolmogorov et w? ne pourront 
pas les discerner asymptotiquement (la valeur limite de la puissance au point P sera confondue 
avec le niveau limite du test). Mais les hypothèses , et Æ, traitées comme des hypothèses 
relatives aux densités seront foncièrement différentes, puisque sup 1/ (1) — 11 = 1. Comme 
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X(oy = Oct X (141) = 1, la statistique M, sera strictement supérieure à AÎN = À,/2pour X € 
€ P. Donc, sin/N = 2n4, — œ, P-presque sûrement, on aura 


nM, —_ 


En fixant la région critique Q, = {nM, > 3], on obtient P,(@,) — 0. Ceci exprime que 
pour 4, = o(n”/?), A n — o, É test de Moran discernera les hypothèses A. et H, avec une 
probabilité voisine de 1. En d’autres termes, la statistique M, est sensible aux Lans de la den- 
sité, quant au test de Moran on peut le recommander pour "éprouver des hypothèses concer- 
nant les densités. Par ailleurs, nous savons du $ 1.10 que les densités empiriques se rappro- 
chent de la densité véritable à une vitesse inférieure à n — !/2. 11 n’est donc pas étonnant que 
l’on ne puisse pas discerner des hypothèses qui différent entre elles d’une quantité de l’ordre 
den” !/2(cf. 10). 

Au sujet du test de Moran et de certains tests considérés précédemment on peut faire une 
remarque générale. Si l’on compare deux tests de même niveau fixé dont l’un est destiné à trai- 
ter un nombre d'’alternatives plus grand que l’autre, la puissance du premier pour chaque 
alternative fixée (rejetée par les deux tests) sera en principe inférieure à celle du second. 
L'exemple le plus simple illustrant cette circonstance nous est fourni par les tests 1x,| > À, 
et x, > À, qui sont destinés à éprouver respectivement les hypothèses [a # Oj et {x > 0] Contre 
lœ = . au vu de l'échantillon X,S%, ,-lciX est le quantile d'ordre 1 — € de la distribution 
ë,, . Les puissances au point se > 0: seront respectivement égales à 


1 — 2,0%,» — @, À, — a) < 1 — (OX — a). 


€ 


$ 13. Tests asymptotiquement optimaux. Test du rapport de vraisemblance 
traité comme un test asymptotiquement bayésien d’une hypothèse simple 
contre une hypothèse multiple 


1. Propriétés asymptotiques du test du rapport de vraisemblance et du 
test bayésien. Soit à tester l’hypothèse simple H, = {X € P:,] contre 
l’hypothèse multiple H, = {X € P, ,0 40,,0€ |. Dans les paragraphes 
précédents nous avons vu sur des exemples qu’il n’existait pas de test uni- 
formément le plus puissant dans ce cas. 

On se place dans l’approche partiellement bayésienne décrite dans les 
$$ 4 et 9 et qui consiste à admettre que 8 e O6, = 6 X {8,} est un paramètre 
aléatoire de distribution Q, = Q. On peut supposer que Q est définie sur ©, 
Q({8,}) = 0. Dans ce cas la distribution de l’échantillon X sera définie par 
la densité « moyennisée » 


fa) = [A &XQ(ar). (1) 


Donc, si Q est connue, on peut admettre que l’hypothèse Ho, = H, selon 
laquelle X admet une distribution de densité (1), et |’ hypothèse H, sont des 
hypothèses simples, et utiliser le lemme de Neyman-Pearson SOU cons- 
truire un test uniformément le plus puissant. 

Il se trouve que dans ce cas les tests les plus puissants seront asymptoti- 


25—4195 
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quement confondus avec le test du rapport de vraisemblance 


sup/o(X)  , 


= ne  — 2 
AC AC e 


pour « presque toutes » les Q régulières et par conséquent ne dépendront 
pas de Q. Ce fait nous permet de considérer que le test trouvé est asympto- 
tiquement optimal au moins dans les cas où l’on peut supposer que 86, est 
aléatoire et que sa distribution Q est inconnue. 

Avant de formuler le théorème correspondant, rappelons quelques 
résultats utiles et prouvons une proposition auxiliaire dans laquelle le rôle 
principal sera tenu par les propriétés asymptotiques du rapport de vraisem- 
blance. On étudiera immédiatement le cas d’un paramètre vectoriel ; tous 
les éléments nécessaires à cette étude figurent dans les $$ 2.28 et 2.29. 

Supposons donc que8e 6 C R*,k > 1, et que sont remplies les condi- 
tions de régularité (RR) formulées dans le $ 2.28. Supposons par ailleurs 
que Q admet une densité g (f) par rapport à la mesure de Lebesgue À(dt) = 
= dt. 

Le lemme de Neyman-Pearson nous dit que le test non randomisé le 
plus puissant xQ, = *Q de H, contre H, sera de la forme suivante : 
xQ(X) = 1si 


XeQ(c) = F > €} fe) = [at eau G) 
6, { 


où c = c, sera choisi ultérieurement en fonction du niveau du test. 
Les tests bayésiens de FH, contre ES aussi de cette forme. 


Les risques de première et de deuxième espèce seront égaux respective- 
ment à 
Jo(X) ): 
a\(To) = > C 
(ro) Pa (5 co x) 
fo(X) D 
1-6 = | { 2 Let 2e c Jar 
(ro) g(t)P, f, CO) 
où B(ro) = | fox )H" (dx) est la puissance du test le plus puis- 
Vax)< Ye, G)] 
sant. 


On peut écrire des expressions identiques pour le test du rapport de 
vraisemblance + qui conduit à accepter l’hypothèse H, lorsque (2) est rem- 
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plie : 
SEE fa (X) 
ee Gun d <) 


| SX) 
a® = | a(P, En <e jar = fau" (dx). 


(5) 


Va &)< Ye, (x)] 


Posons / = 7(6,) (la valeur de la matrice d’information de Fisher au 


point 6,) 5 
fe) o 461) ,rw 
fo, 00 T° 
fi (4) = eT0, (6) 
PACS 


Les régions critiques des tests x, et + (cf. (3), (2)) peuvent alors être écrites 
respectivement sous la forme 


T(X)> co, TX) > é. (7) 


LEMME 1. Si les conditions (RR) du $ 2.28 sont remplies, X € Po, et 6, 
est un point intérieur de ©, alors 


2T(X) = 2F (XXI + e,(X)) € H,, €, (X) = 0. 


DÉMONSTRATION. Ce lemme est la conséquence évidente des théorèmes 
2.28.4 et 2.28.5. Il suffit seulement de remarquer que dans les notations du 
théorème 2.28.4 Î (X) n’est autre que Y(u*) (pour 8 = 8,). 

2. Le test du rapport de vraisemblance est asymptotiquement bayésien. 
Passons à l’énoncé de la proposition principale. On rappelle que lorsqu’on 
étudie les propriétés asymptotiques des tests, on a en vue non pas un seul 
mais toute une suite de tests x = #,, où +, est un test basé sur l’échantillon 
X,,. Nous avons eu affaire à une situation analogue en étudiant les proprié- 
tés asymptotiques des estimateurs. Ici et ultérieurement — partout où cela 
sera nécessaire — par test x on comprendra une suite de fonctions x, (4,,) 
définies pour chaque n et X#, = [X, ], - 

DÉFINITION 1. On dit qu’un test x de H, = 8 e 6, } contre H, = e 
e ©) appartient à la classe K, des tests de niveau asymptotique 1 — e si 


lim: sup- sup E,r(X) < (8) 


Si l’hypothèse H, est simple et 6, = {8,}, la relation (8) se transforme en 
l’inégalité 
lim. sup E,, A(X)S<SE 


25° 
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Soit h, le quantile d’ordre 1 — € de la distribution du x? à k degrés de 
liberté (H (A, , ©) = €). Du lemme 1 il s'ensuit alors que 10€ K., re K, si 
CQ=È= h, /2. 

DÉFINITION 2. Posons c, = h,/2, de sorte que x, € K,. On dit qu’un 
test x € K est un {est asymptotiquement bayésien de H, = ‘(0 = Ô,} contre 
HQ si les risques de deuxième espèce relatifs à |’ hvpouiése HQ vérifient la 
relation 


lim.sup mo lim.sup Fm LLÈE lim.sup EqQQ = 7(X) _ 
n->  @1(r0) n-œ 1 — B(xo) n—œ Et — rQ(À) 


Nous avons utilisé dans cette définition le rapport (et non pas la diffé- 
rence) des risques de deuxième espèce, puisque &;(rQ) — 0 pour ñ — co. 


THÉORÈME 1. Si les conditions (RR) sont remplies et Ô, est un point 
intérieur de ©, le test du rapport de vraisemblance + (cf. (2) é (7)) appar- 
tient à K, pour ê = h,/2 et est un test asymptotiquement bayésien de H, 
contre H,, pour toute distribution Q dont la densité q({(t) est continue à 
strictement positive dans 6. De plus 


@(7) — @(x0) — UT V,hk”? 


où I = 1@,)et V, est le volume de la boule unité de R*. 


DÉMONSTRATION. Nous avons déjà prouvé que re À, pour é = h,/2. 
Considérons maintenant les risques de deuxième espèce. On a en vertu de 
(4) et (7) 


a(rQ) = fat" (dx) = E, ss 2T(X) < = 
ITS col d 
: 2% K/2 q(. ) Le. 
= eo De Ep le 70 ; 2T(X) € I. 


Sous le signe de l’espérance mathématique figure une fonction de 27 bor- 
née, continue presque partout par rapport à la distribution limite H,. 
Donc, pour ñn — æ,x? € H,, 


1 2 
E, (7% s2T(X)< h,) — E {e? L Xk < h,} = 


= (2x) 7/2 | e? 2 dy, dy, = (2x) -/2hk/2V,. 


Hylè<h,] 


$ 13] TESTS ASYMPTOTIQUEMENT OPTIMAUX 389 


Mr maintenant le comportement asymptotique de œ2(7). Posons 
= {X : 70 # #. Le lemme 1 nous dit que Ps, (4,) — 0. Donc, du théo- 
se 2.29.5 ds s’ensuit que pour tout N fixé 


Rue Poru/vr (4,) — 0. (9) 


Utilisons la représentation (cf. (5)) 
a(#) = [q()P,(TCX) < é)dt = 
= Ü + [ _< [aG)P,(T(X) < é)dt + 
tr, &N/Vn l—0,1>N/vn 
+ | q(t)P,(A,)dt + ( q(t)P,(T(X) < é)at. 
80, <N/Vn lr—-0,>N/Vn 


Il vient en vertu de (9) 


lim.sup n*/2a,(7) < lim n*/2@,(x0) + 
n—œ n—œ 


+ max q(t)- lim.sup P, Fr g e‘ jar. 


lt-8, >N/vn 
Mais la probabilité sous le signe d’intégration est au plus égale à 
P, ee ) 
f,(X) 


Nous nous sommes servis du théorème 2.28.1. Donc, cette intégrale est 
inférieure à 


>e*) < exp {6/2 — 11 — 8,lng/2). (10) 


et/2 e-luls/2qu — 0 
lul>N 
pour N — ©. D’où 


lim-sup n*/2œ,() < lim n*/2@,(x0). (11) 


Il est évident que cela revient à dire que + est un test asymptotiquement 
bayésien. 

Reste à établir seulement que œ(7) — a(rQ) OU, ce qui est équivalent 
en vertu de (11), que 


lim-inf n*/2o,(7) > lim n“/2@,(x0). (12) 


Remarquons à cet effet que le test x, que nous avons construit est un 
test bayésien associé à la probabilité a priori q, de l’hypothèse H,, définie à 
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partir de l’équation (comparer avec (3) et (6)) 


hi 2)" CAC) et 
lg; n VTT 


Ceci exprime que le risque de x, aura le même comportement asymptoti- 
que que 


eg; + (À — gikx2(ro) — €, + aæ(xo)- 


Si l’on admet que (12) n’est pas vraie, on obtiendra un test + dont le risque 
sera inférieur. Ce qui est impossible. 

Ces raisonnements montrent que la principale contribution aux risques 
de deuxième espèce provient des valeurs aléatoires 0 qui tombent dans un 
n”!”2voisinage du point 8, (ceci explique l’ordre de petitesse n -*/2 de ces 
probabilités). 

En modifiant légèrement les raisonnements de la démonstration du 
théorème 1 on est conduit à la proposition suivante. 


THÉORÈME 2. Les tests x ‘ et rx ‘” de régions critiques 
= fre 2 :n@* — 8,)1@,)Ë* — 8,77 > h,}, 
= fre 27: L'(X,0,)1-'@,XL'(X,08,)7 > h,) 


sont, comme le test +, des tests asymptotiquement bayésiens dans k.. Cette 
propriété est préservée si l’on remplace I(6,) par I (*) dans (13). 


(13) 


On obtient les tests (13) si l’on développe 


5 (X) 
In" = L(X,0*) — L(X,0 
1, © (x) ( ) (4, 0,) 
en série au voisinage du point 6* (cf. théorème 2.28.4). La forme du test + 
est dans un sens plus commode, car elle n’est pas liée à la dimension. 
DÉMONSTRATION. Nous la laissons au soin du lecteur. 
Dans le cas scalaire, la région critique 9 * (lorsque 7(8,) est remplacée 
par /(6*)) est de la forme 


16» | h 1/2 
| (e nn (rés | } ” 


où de toute évidence h, = À2,, 0. 1(—À,/72: À,72D = 1 — €. On voit que le 
test x'° associé à (14), qui est asymptotiquement équivalent à +, peut être 
interprété de la manière suivante : x°(#) = 1 si 0, ne tombe pas dans 
l’intervalle de confiance au seuil asymptotique 1 — € Ou? le pararnètre 6, 
construit à l’aide de l’estimateur du maximum de vraisemblance 6*. 
Cette interprétation est valable de toute évidence dans le cas vectoriel ; 
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les régions de confiance seront les ellipsoïdes : 
(@* — 0)16*)6* —- 677 <n-'h. 


On voit donc que les estimateurs du maximum de vraisemblance sont 
étroitement liés aux tests asymptotiquement bayésiens. 

EXEMPLE 1. Supposons que X € IL, et soit à tester l'hypothèse H, = 

= {À = À) contre H, = {À # À,}. Dans ce cas, À* = x*, J(A) = À ét un 
test asymptotiquement bayésien sera de la forme 

X — À) > h,À,/n, 

où H,(]h,, of) = €. 

EXEMPLE 2. Supposons que X € #, et soit à tester l’hypothèse H, = 

= {(œ, 0?) = (æ?, o)] contre l'hypothèse complémentaire. On a 


RS cie C2. : a? (0) 
M =x, 02 =S D) (x, — x)?,  1(œ, 0?) = 5 ee 


(cf. $ 2.16). Donc, un test asymptotiquement bayésien sera de la forme 
. 2 2 _ 2» 
Pt Len A PAU 
0j 20: n 
où H,(A,, œf) = €. 

3. Le test du rapport de vraisemblance est asymptotiquement sans biais. 
Fermons ce paragraphe en prouvant que le test du rapport de vraisem- 
blance (2) est sy pIotquement sans biais. Rappelons préalablement 
qu’un test x de H, = 8 e 6) contre H, = {8e 6,] est par définition sans 
biais si | 


inf E,x -— E,r > 0 
co, CL er. 


DÉFINITION 3. On dit qu’un test x est asymptotiquement sans biais si 


lim.inf ( ee E,r — sup E,x) > 0 
] 


n—œ 


THÉORÈME 3. Le test du rapport de vraisemblance * (cf. (2), (6) et (T)) 
de H, = {8 = 8,) contre H, = {0 + 6,} est asymptotiquement sans biais. 


DÉMONSTRATION. Vu que dans notre cas 6, = {8,)et lim E; x = €, il 


suffit de s’assurer que 


5. (X) ) 
lim.inf. inf Ex = lim. inf, inf P, >e l>e, (15) 
nc —® Jo, (X) 


oùé = h,/2. 
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De l’estimation (10) il s’ensuit qu’il existe un N > 0 tel que 
inf P, (CS >et}>e. 
0, >N/vn Jo, (X) 
Reste à prouver que 


inf Er—e. 
8, <N/vn 


Mais en vertu des théorèmes 2.28.4 et 2.29.3, pour X € P,ona 
l 
PA)= 3 E-UNE-uMEES, 


E (D — P, G (Œ — u)IGE — u)T > ê = 72) 


D 


uniformément en u, lul < N,u = Vn(t — 8,). Le second membre atteint 
son minimum pour u = 0. Ce minimum est égal à P(£/£T > h) = €. 


$ 14. Tests asymptotiquement optimaux pour hypothèses multiples voisines 


1. Position du problème et définitions. Dans le $ 3 nous avons discuté 
deux approches asymptotiques du problème de test de deux hypothèses 
simples A, et H,. Si l’on admet que ces hypothèses sont fixes, c’est-à-dire 
ne changent pas lorsque la taille r de l’échantillon X, croît, le calcul des ris- 
ques nous conduit à celui des probabilités des grands écarts, de sorte que 
l’un au moins des risques tend vers 0. Dans la deuxième approche, les 
hypothèses A, et H, sont traitées comme des termes d’une suite d’hypothé- 
ses se « rapprochant » l’une de l’autre, la vitesse de rapprochement étant 
choisie de telle sorte que les risques de première et de deuxième espèce con- 
vergent vers leurs propres limites (qui sont différentes de O0 et de 1). Nous 
avons vu que dans le cas paramétrique les valeurs 8, et 8, du paramètre qui 
correspondent aux hypothèses 7, et H,, doivent différer d’une quantité de 
l’ordre de n-!/2. L'utilisation de l’une ou de l’autre de ces approches 
dépend des conditions du problème. 

Dans le paragraphe précédent, on a étudie une distribution Q indépen- 
dante de #7 pour la valeur concurrente de 8 et comme il fallait s’y attendre 
on a trouvé que le risque de deuxième espèce converge vers 0 comme n -“/2. 
Ceci est dû au fait que la principale contribution à ce risque est apportée 
par les hypothèses voisines pour lesquelles l’écart entre 8 et 8, est de l’ordre 
de n-!/2 (le volume de la région contenant de tels 0 sera justement de 
l’ordre de n -“/2). 

Dans ce paragraphe, on considère le test d’hypothèses multiples voisi- 
nes dans le cas où les valeurs alternatives du paramètre se rapprochent lors- 
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que 7 — ©. Il apparaît que dans ce cas le problème de test des hypothèses 
peut dans un certain sens être ramené à un problème bien plus simple pour 
une distribution normale. 

Formulons le problème en termes plus rigoureux. Soit à éprouver 
l'hypothèse H, = {8 e 6,] contre l’hypothèse H, = {8 e 6,]} au vu d’un 
échantillon X € P,. Fixons un point intérieur quelconque 8, de 6 et posons 


0=0, +yn-/l2. (1) 
Supposons maintenant que les ensembles 6; sont de la forme 
6,=0,+7Tn"!2, (2) 


où l'; sont indépendants de n. La notation (2) exprime que 8 € 6; si et seule- 
ment si y e l'; dans (1). Comme au $ 3, les hypothèses H; = {8 e ©] sous la 
condition (1) seront appelées voisines (en fait c’est une suite d’hypothèses 
qui diffèrent d’un nr à l’autre). 

Le problème de choix entre les hypothèses voisines H au vu de X € P, 
sera appelé problème À. 

Considérons maintenant un autre problème. Supposons que Y € 
(= LA 1 est un échantillon de taille 1 issu d’une distribution normale 


? ;- . de vecteur des moyennes y et de matrice des moments d’ordre deux 
| d = 171(6,), où 7(6,) est la matrice d’information de Fisher au point 8, 


pour le problème À. Désignons par À ; les hypothèses [y e l',). Le problème 
de test des hypothèses & ; au vu d’une seule observation Ÿ € &. ,_, sera 


appelé problème B. 

Le fait remarquable qui permet de réaliser la réduction signalée 
ci-dessus consiste en ce qui suit. Soit x( Ÿ) un test optimal dans un sens ou 
dans l’autre (un test uniformément le plus puissant, bayésien, minimax) de 
k , contre & , dans le problème B. Supposons comme toujours que Ô* est 
un estimateur du maximum de vraisemblance dans le problème À et y° = 
= (8* — 6,)Vn. Dans ces conditions, le test (7° ) de H, contre H, dans le 
problème À possédera asymptotiquement les mêmes propriétés d’optima- 
lité que le test x(Y) dans le problème B. 

Donc, pour trouver un test asymptotiquement optimal dans le pro- 
blème À, nous devons considérer un problème B plus simple encore et trou- 
ver (si possible) un test x jouissant de la propriété nécessaire d’optimalité. 
Si maintenant pour observation Y on prend la valeur 7° et qu’on la porte 
dans +, on obtient le test cherché dans le problème À. 

On pourrait appeler ce fait critère limite d’optimalité. Sa signification 
est relativement simple. On sait, en effet, d’après les résultats du chapitre 2 
que pour X € P, 


: CE 0 


VnG* —-0)1'26)e&,,; 
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uniformément en 8. Donc, pour 8 = 8, + yn-!/? 


Vn@*-0,)-7€e É-10) 


Ou, ce qui est équivalent, 

y € . Et: 
La distribution ® ,-1 du problème B n’est par conséquent autre que la dis- 
tribution limite de y°. C’est pourquoi le critère limite d’optimalité est assez 
naturel ; il réduit le problème de test des hypothèses à un problème 
« limite ». Ce qui est remarquable dans tout cela c’est que cette réduction 
ne s’accompagne d’aucune perte d’information sensible sur 8 : le test opti- 
mal dans le problème B le reste dans le problème À. 

Pour formuler ce qui vient d’être dit en termes plus rigoureux, introdui- 
sons maintenant les principales notions d’optimalité asymptotiques des 
tests de choix entre hypothèses voisines dans le problème À. 

La classe À, des tests x de niveau asymptotique 1 — € a été définie dans 
le paragraphe précédent (définition 2). Pour re À ona 

lim.sup.sup E,r(X) < €. 
n— œ P cd, oT( ) : 

DÉFINITION 1. On dit qu’un test x, e À, est asymptotiquement unifor- 

mément le plus puissant dans K, si pour toutyelT,ettoutre À ,ona 


lim.inf (Es, (X) — Esr(X)) > 0, 


où8 =80, +yn-l/?2e0, pour 7er. 

Soient données des distributions IE; sur l',. Ces distributions induisent 
sur ©; des distributions (concentrées dans un n - l/2-voisinage du point 8.) 
que nous désignerons par Q,, i = 1, 2. Les hypothèses selon lesquelles 8 est 
un paramètre aléatoire de distribution Q,; seront comme précédemment 
désignées par Ho. 

Appelons Ê@1 la classe des tests x tels que 

lim.sup Eo,r(X )<e, 


où Eo, représente l’espérance mathématique par rapport à la distribution 


conjointe de 8 et X,0 € Q,,X € P,.Ilest évident queX, C À® pour toute 
Q. 

DÉFINITION 2. On dit qu’un test +, € k° ! de Ho, contre Ho, est un test 
asymptotiquement bayésien dans ki si pour tout autre test 7 € Re 'ona 


lim. inf Eo,71(X ) — Eo,r(X )) > 0. (3) 
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On peut donner une définition équivalente d’un test asymptotiquement 
bayésien dans laquelle au lieu de (3) on exige que 


lim . inf (Eo, 7104) — Eo, 70,0, (X)) 2 0, (4) 


où +Q,0Q, est un test bayésien de classe À©1 de choix entre Ho, et Ho, (ou ce 
qui est équivalent un test le plus puissant de HQ, contre Ho, de niveau 
asymptotique 1 — €). 

A noter que la définition 2 diffère légèrement de la définition du test 
asymptotiquement bayésien, donnée dans le paragraphe précédent (cf. 
définition 13.2 qui fait intervenir le rapport des risques et non pas leur dif- 
férence). Ces définitions sont équivalentes pour la suite de l’exposé mais la 
dernière est plus commode. 

DÉFINITION 3. On dit qu’un test +, € À, est un test asymptotiquement 
minimax dans , de H, contre H, si pour tout autretest re À ,ona 

lim.inf (inf E,x,(X) — inf E,r(%#)) > 0. (5) 
n— © 86; 06; 

Si l’on veut que notre étude soit payante, il faut, comme pour les tests 
minimax ordinaires (cf. $ 9), séparer les ensembles 6, et 6, par une zone 
intermédiaire, sinon les deux limites inférieures de (5) risqueraient d’être 
égales à € pour tout test asymptotiquement sans biais x. 

Les définitions exhibées montrent que la propriété de telle ou telle opti- 
malité asymptotique se distingue de la propriété ordinaire de cette même 
optimalité par le fait que la différence correspondante est précédée du signe 
« lim. inf ». 

Outre les tests asymptotiquement bayésiens et minimax des classes X et 
RQ, on peut étudier des tests asymptotiquement bayésiens et minimax 
ordinaires. Soit donnée une distribution Q = gqg(1)Q, + g(2)Q;, g(1) + 
+ g(2) = 1,sur6 = 6, U 6,. On dit alors qu’un test x, est asymptotique- 
ment bayésien pour la distribution a priori Q si pour tout autre test x on a 


lim. inf [g(DEo, "1 (4) + 4Q)Eo,( — r1(X)) — 
— qUEo 7) - a QEQU - rXMN<O. (6) 


La moyenne par rapport à Q de la probabilité d’erreur du test x qui figure 
dans cette inégalité peut être écrite à l’aide de la probabilité æ(x, 8) d’erreur 
au point 0 sous la forme Eoa(r, 8), où 


E,r(x) si 60e6,, 


UE F9 — r(X) si 0e0.. 
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L’inégalité (6) devient alors 
lim. inf Eo [œ(x,CX), 8) — œ(r(X), 0)] < 0. 


Un test x, sera asymptotiquement minimax si 
lim. inf [sup a(x,, 0) — sup (x, 0)] < 0 
n—œ de 0e 


pour tout autre test 7. 

L’étude des tests asymptotiquement bayésiens (dans RQ) et asymptoti- 
quement minimax (dans K .) est au fond la même que celle des tests asymp- 
totiquement bayésiens et minimax ordinaires. Par exemple, un test bayé- 


sien de Rk° l est un test bayésien ordinaire pour un g(1) convenable. Dans ce 


paragraphe on étudiera les tests des classes K, et k° : les tests asymptoti- 


quement bayésiens et minimax ordinaires seront examinés dans les chapi- 
tres suivants (cf. avant-propos) dans le cadre d’une position plus générale 
du problème. 

2. Propositions fondamentales. Pour alléger au possible l'exposé on 
introduira une condition qui ne modifie en rien le fond du problème et dont 
on pourra se dédouaner à tout instant : on dispose à cet effet de tous les 
résultats nécessaires. Plus exactement, on admettra que les ensembles Fr; 
sont bornés, c’est-à-dire qu’il existe un N > Otel quer,C {y :lyl < N]. 

DÉFINITION 4. On dit que des tests x, et x, de choix entre des hypothè- 
ses voisines À, = fe 6,|et H, = (8 e 6, au vu d’un échantillon X sont 
asymptiotiquement équivalents si 


im sup JÎE,r,(X) - E,;r,(X)l = 0. (7) 


La condition posée nous permet de remplacer le domaine figurant sous 
le signe sup dans (7) par le domaine 18 — 8,1 < N/Vn. 

Les tests asymptotiquement équivalents x, et x, jouissent des propriétés 
suivantes : 

1) Si x, € K, (resp. RQ), alors *,€ K, (resp. KR). 

2) Si x, possède l’une des propriétés d'optimalité asymptotique figurant 
dans les définitions 1, 2 et 3, il en sera de même du test x, 

La première assertion découle de (7) et de l’inégalité 


E,rx, < _ 
sup 8T2(X) sup E,r,(X) + up IE,(x, — 7,)l. 


La deuxième s’établit de façon analogue. Si par exemple 4, est un test 
asymptotiquement minimax, il en sera de même de +, en vertu de (7) et de 
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l'inégalité 
. E,r,(X) > 4 E,x,(X) — up IE,(x; — *x,)l. < 


Les conditions d’équivalence asymptotique des tests sont établies par le 
LEMME 1. Supposons qu'au voisinage d’un point 6, sont remplies les 
conditions (RR), x,(X) = Lir,0o + 0>c 1=1,2,oüpour X € Ps, on a 


EX) a 0, 7T,(X) € G, /a distribution G étant continue. Les tests x, et +, 


0; 


sont alors asymptotiquement équivalents. 


DÉMONSTRATION. |E,r,(X) — E,r,(X)l < P,(4,), où l'événement 
A, = {r,(X) # ,(X)] est tel que P, (4,) = Po, (T,CX) + e,,(X) > c, 
T,(A) +e,(X) < c) + P,(7,(X) + e,,(X) < ©, T,(X) + €, (X) > 
> c) — 0 pour ñ — , puisque la distribution limite de T, est continue. 


Donc, sup P,(4,) — 0 en vertu du théorème 2.29.5. <« 
l1—0,1<N/Vn 


Désignons par n n,(Y) le test bayésien de niveau 1 — € du problème B, 
destiné à éprouver les hypothèses À n, selon lesquelles y est un paramètre 
aléatoire de distribution HE; sur l;, i = 1,2. Ce test est de la forme 


exp f- du (Y —u)I(Y -— u) :(du) 
PT) — 2 >, (8) 


| xp Pr (Y — u)I(Y — u)7 Mn, (u) 


où c = c, est déterminé à partir de la condition 
(er, cHL(dn=e, vt,c)=P(E(Y)>c), YE, ,. 0) 


Ces relations expriment visiblement que En, xo,0. ( Y)=e. 


On remarquera que r(y) est une fonction analytique de y. En tant que 
telle, elle ne peut être constante sur un ensemble de mesure de Lebesgue 
strictement positive ou de mesure e, ,-1 (inon elle serait partout cons- 
tante, ce qui n’est possible que pour I, = H,). Donc, P(r(Y) = c) = 0 
pour tout c et la distribution de r(Y) est continue. 

Supposons comme précédemment que xQ,Q,(X) désigne un test bayé- 


sien de niveau asymptotique 1 — € dans le problème À. 


THÉORÈME 1. Si les conditions (RR ) sont remplies au voisinage de 6, , le 
test x(X) = rnn,(°),y7° = 6* —06, )Vn, est asymptotiquement équiva- 
lent au test x0,0, ef par suite est asymptotiquemen! bayésien. 


Dl= | 
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De plus 
sup Es ,,#37(X) — p(y,c)l — 0 (10) 


lyl< 
pour n — ©, où @(y,c) = E ra,n,( Y ) est définie dans (9). 
DÉMONSTRATION. Considérons le test bayésien xQ,Q, du problème À. Il 
est de la forme 
| Je, +u/n (AXE, (du) 


A) = = —— > cC 
| Jo, +uvn CAE, (du) 


SX E Po, , le théorème 2.28.5 nous donne 
TX) = r@°")( + (x, 8,)) 
(y° = u° pour 0 = 6,). La distribution de r( Ÿ) est continue, car y° = Y € 
E $ 0,1» CE qui, en vertu du lemme 1, prouve la première proposition du 
théorème, puisque le test + est de la forme r(y° ) > c. 
La relation (10) découle de la représentation 


E, +y/a TX) = E, SNS ee P(r( ÿ) > c), 
Y € #. , et du théorème 2.29.4. <« 


THÉORÈME 2. Supposons qu'au voisinage du point 6, sont remplies les 
conditions (RR) et que y° = (8° — 6,)Vn. 

Supposons par ailleurs qu'il existe un test minimax »,(Y) de niveau 
1 —-ede k , contre k , dans le problème B et que ce test est bayésien 


r1(Y) = nn, (Y) (11) 

pour des distributions a priori HE, et I, vérifiant les conditions 
En 7,(Y) = su E r( Y), 

| rh (12) 


En,71(Y) = ne Er(r), re P 


(comparer avec les hypothèses du théorème 9.1). Alors le test x(X) = 
= +n,n,(° )sera asymptotiquement minimax dans la classe k des tests de 


H,, contre H, dans le problème À. 


DÉMONSTRATION. Le test x, étant de niveau 1 —e,ona 
SUP E r,(Y) = Enr (Y) = €. 
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En vertu de (10) et (12) on en déduit 


à E, ,,4370,0.(X) = Jim Eo,70,0, (À) = €. 
Ce qui exprime que +00, € À. , xo,0. € À 21. 
Il faut prouver maintenant que pour tout test x° e À 


lim.inf (inf E,rx(X) — inf E,x° (X)) > 0. 
n— © 66; 0€0; 


On a 
lim-sup . né E,x° (X) < lim, sup E,x° (X) < lim. sup FQraa (x). 
La dernière inégalité est vérifiée, puisque TQ,0Q, St bayésien (c’est-à-dire 
que 9, Eo,rQ,0, + (1 — g,)Eo,(1 — x0Q.,0.) est minimale pour un g; conve- 
nable) et que lim sup Eg,x° (X) < €, lim Eo,rQ.,0, = €. 
Par ailleurs, d’après (10), (12) et le théorème 1, le dernier membre de 
(13) est égal à 


lim Eo,7107") = En,%n,n,(9 = 
or O9 ee ar nan ra ce, (0 < 


THÉORÈME 3. Supposons que dans le problème B il existe un test uni- 
Jormément le plus puissant x ,(Y) de niveau 1 —- ede contre ,.Sup- 
posons par ailleurs que pour tout y,eT', il existe une distribution EH, surT, 
telle que 


x,(Y) = *n,n,(7) (14) 
est un test bayésien de n contre n,(, est ici concentrée au point 7;). 
Le test x(X) = x,(y° ) est alors un test asymptotiquement uniformément 


le plus puissant (de niveau asymptotique 1 — €) de H, contre H, dans le 
problème À. 


Signalons que la condition (14) est toujours remplie pour les problèmes 
des $$ 5, 6 et 7. Ceci résulte de la construction même des tests uniformé- 
ment les plus puissants effectuée dans ces paragraphes. 

DÉMONSTRATION du théorème 3. La relation x,(7°) € À, découle du 
théorème 1, puisque 


nul E,r,(°) = A LE E,r;(°) = sup er, €) € €. 
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Soit maintenant x° un autre test de À . Alors 
im. L < lim. ; : < 
lim. Sup Eor (X) < lim.sup np E,r°(X)S e, 


et xr° peut par conséquent être traité aussi comme un test de k° 1 de choix 
entre Ho, et Ho, où Q, est induite par la distribution IE, (cf. énoncé du 
théorème) et Q, est concentrée au point 8, = 8, + y2n7 2. Sixo.o, est un 
test bayésien de niveau asymptotique 1 — € pour ces distributions, alors 


lim E, *o,o,(X) > lim.sup E, x° (X). 


Mais le premier membre de cette inégalité est confondu, en vertu du théo- 
rème 1, avec la valeur 


lim Es,%n,n,(°) E lim Es,71(7°). _ 


On peut chercher de façon analogue un test asymptotiquement unifor- 
mément le plus puissant dans la classe des tests asymptotiquement sans 
biais. 

REMARQUE 1. Si les distributions IE, et IE, sont concentrées aux points 
respectifs y, ety>, On a 
exp à 32 nIY- 7} 

r(Y) = a 
exp f- 22 -nIT- no) 


La région critique de ru, n,(Y) sera donc de la forme 
YO — 7 = LG nd > c. 


En dimension un, on déduit de là le test asymptotiquement le plus puissant 
(3.21) étudié au $ 3. | 

REMARQUE 2. Si la distribution IE, est concentrée en u = 0 et la distri- 
bution IE, est uniforme sur la boule lui < N, le dénominateur de la fonc- 


tion r(ŸY) sera égal à exp !— ; Y1 . et le numérateur sera, pour les 


grands N et l-yl < N — VN, proche de VTT (2r)“/2. Pour de telles IE, et IH, 
la région critique de xn,n, Sera donc d’une forme voisine de l’extérieur de 
l’ellipsoïde 
YIYT > c, 
et la région critique du test asymptotiquement bayésien xn,m,(y°), de 
l’extérieur de l’ellipsoïde 
: y LT > c. 
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On reconnaît ici la forme asymptotique du test du rapport de vraisem- 
blance étudié dans le paragraphe précédent (comparer avec le théorème 
13.2). 

REMARQUE 3. Les théorèmes 2 et 3 contiennent des conditions stipulant 
que le test minimax (théorème 2) et le test uniformément le plus puissant 
(théorème 3) du problème B sont bayésiens pour certaines distributions IE, 
sur l'.. Nous verrons dans les chapitres suivants que ces conditions sont 
superflues : la classe des tests bayésiens contient tous les tests 
« inaméliorables », y compris les tests uniformément les plus puissants et 
les tests minimax. 


$ 15. Propriétés d’optimalité asymptotique du test du rapport de 
vraisemblance découlant du critère limite d’optimalité 


Dans ce paragraphe nous étudierons quelques conséquences des résul- 
tats du $ 14 relatifs au test du rapport de vraisemblance. Nous établirons 
en particulier que le test du rapport de vraisemblance est asymptotique- 
ment uniformément le plus puissant et minimax pour certains problèmes 
importants de décision entre hypothèses voisines. 

Dans la suite on admettra que les conditions (RR) sont remplies au voi- 
sinage du point 8,. Pour simplifier les raisonnements on supposera au 
besoin comme dans le paragraphe précédent que les ensembles l'; sont bor- 
nés. 

1. Test asymptoticuement uniformément le plus puissant pour hypothe- 
ses voisines avec des contre-hypothèses unilatérales. Supposons que le 
paramètre 8 est scalaire et considérons le test de choix entre l’hypothèse 
unilatérale H, = {0 < 8, + y,n7!/?] et son alternative H, = {0 > 8, = 
= 0, + van"), vi < Y2- 

THÉORÈME 1. Le test du rapport de vraisemblance HX) de région criti- 


que 
sup fo(X) 
ROCK) 2 >< (1) 
sup f,(X) 
0E6, 


avecO, = {6 :0<0,+7yn"!2),6, = (8 :8 > 6, + y;n°l/?]er c conve- 
nablement choisi, est asymptotiquement équivalent au test 

y = 6" -80)n>c=XxI +4, S A)=1-e (2 
et est un test asymptotiquement uniformément le plus puissant de niveau 
asymptotique 1 — e de l'hypothèse H, = {0 < 0, + y,n 7?) contre l’hypo- 
thèse H, = (0 > 0, + y,n7!/?). Dans les formules (2), le symbole I désigne 
la quantité d’information de Fischer I(6,) au point 8, pour la famille {,. 
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DÉMONSTRATION. Du $ 5 il s’ensuit que pour l’échantillon Y € &. ,.; 


de taille un et de variance J - ! connue, il existe un test uniformément le plus 
puissant de l’hypothèse & , = {y < y,} contre k , = {y > y,}, qui est de la 
forme Y > c,, où c, est défini dans (2). Il est évident que le test bayésien 
associé aux distributions dégénérées concentrées aux points 7, et y, (ou aux 
points y, ety > y, Si, = 72) sera aussi de la même forme. Le théorème 
14.3 nous dit alors qu’il existe un test asymptotiquement uniformément le 
plus puissant de niveau asymptotique 1 — € de H, contre FH, et qu’il est de 
la forme (2). 

Reste à prouver que les tests (1) et (2) sont asymptotiquement équiva- 
fo, +12) 


lents. En posant Z,(f) = DATE 
8; 


, On trouve en vertu du théorème 2.28.4 
que pour À € P, 


sup Z,(un”!’?) 
u>7Y)2 = 
sup Z,(un-!/?) 
Uu&TY] 


R(X) = 


u>7Y2 


TE T,(X) + ed (X), 
sup exp f- — (7° — u)?I + «PO 
uLTY] 2 


sup exp f- 5 (° — u}I + PO} 


où eD(X) — 0, i = 1,2, 3, 


sup exp f- 10 — Pr) 
e u>Y2 2 
T,(X) = rQ°) = = 
sup exp f- = (y* - Pr) 
u<&T; 2 
1 
exp à 3 @œ° — PI} pour 7° < y, 


1 . 1, ; 
= À ep {50 -nŸ+ 56 nt} pour << 


Lis 
exp G (2 LES pour 7° > 72. 


On reconnaît ici une fonction continue monotone, strictement croissante 
de y”. Donc, l’inégalité T,(X) > c est équivalente ày* > c° pour un cer- 
tain c”. La distribution de r(Ÿ) est absolument continue, puisque y* = 
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Ye, ,_,.Les conditions du lemme 14.1 sont remplies pour les tests 
(1) et (2). « 

2. Test asymptotiquement uniformément le plus puissant pour alterna- 
tives bilatérales. Supposons comme toujours que le paramètre 8 est scalaire 
et que le problème À consiste à tester l’hypothèse H, = {(8 — 8,)Vn & 
€ }r,, Al) contre H, = {0 — 0,)Vn e }r,, 2, Y2 > Y,- Posons 
V1 + 2 _ V2 7: 

ER 

THÉORÈME 2. Le test du rapport de vraisemblance x X) défini dans (1) 
pour c convenablement choisi et @, = {8 : (0 — 6,)Vn & }y,, y,l et 6, = 

= @ : (8 —- 8,)Vne hr, »l}, et le test 


y —yl=16* —-08,)Vn-7l<c,, (3) 


où c, est déterminé à partir de l'équation ë,, 7-10 —cC — A,c— A) =e, 
sont des tests asymptotiquement uniformément les plus puissants de niveau 
asymptotique 1 — e de H, = {(0 — 8,)Vn & }y,, y,Ù contre H, = {(0 — 
= 0,)Vn € 1, 2. 

DÉMONSTRATION. Elle est calquée sur celle du théorème précédent. Du 
$ 5 il s’ensuit que pour le problème B de décision entre l'hypothèse k , = 


= {y € }y,, 2 [) et son alternative 8 , = {y € }y,, ,[} au vu d’une obser- 
vation Y € ® 7-1» il existe un test uniformément le plus puissant de la 


formec” << c”,oùc”etc”” sont choisis de telle sorte que 
P,riQc,cD =, Qc, c"D = e. 


y = 


Il est immédiat de voir que ces relations sont remplies si l’on pose c ’ = y — 
— cetc” = y+c,, puisque 
8, 7-10 — eo +cD=8,,0-c + 4,c + AD=Ee, 
P,,.1-107 — C,,7y + CD = Poy-1Q—c, — A,c — AD =e. 
Nous avons vu par ailleurs au $ 5 que pour tout y,e }y,,vlilexisteunge 


€ ]0, 1[ tel que le test bayésien 0,0, de l'hypothèse À ü, associée à la distri- 
bution I, : H,(fy,}) = g, H,(fy,)) = 1 — g, contre l'hypothèse kn, = 


= {y = 0) sera de la forme 
CeYEC : 
Ceci exprime que les conditions du théorème 14.3 seront remplies et le test 


(3) sera un test asymptotiquement uniformément le plus puissant de FH, 
contre H,. 
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Considérons maintenant le test du rapport de vraisemblance (1) pour les 
régions 6, définies dans le théorème et montrons qu’il est asymptotique- 
ment équivalent à (3). Comme dans la démonstration du théorème 1, pour 
À € P,, le théorème 2.28.4 nous donne 


sup Z,(un”!”?) 
1° Y2{ 


ue } _ 
sup Z(un-l2) 
1 
sup exp f- (° — u I + «PGO } 
_ ue }y3, 72! 


= T,(X) + SX), 


sup — —(y" — u}I + 200} 
SP, À 30 — Pr + PC) 


où EX) — 0, i = 1,2, 3, 
Pe, 
l 2 
sup exp ÿ— > (y  uÿr 
TX) = r@°) = nn 


sup exp f- 
ue}y1, r2l 


2 
1 e 2 « Eu 
exp EAU — V1)" 7 Si Y1<Y < 
= . | : 
exp 3% — Y2)'I Si Y<Y < V2» 


l,, : . 
exp 36 - m1} S Y2< 7 : 


On voit sur ces égalités que r(y* ) est une fonction de ly* — y| continue 
monotone strictement décroissante. Donc l’inégalité r(y° ) > c est équiva- 
lente à l’inégalité |y* — yl < c’. Les conditions du lemme 14.1 sont rem- 
plies puisque y" » YE#, ,,. < 

3. Test asymptotiquement minimax pour hypothèses voisines relatives à 
un paramètre vectoriel. Considérons maintenant un paramètre vectoriel 8. 
Dans ce cas, il n’existe pas en général de test asymptotiquement uniformé- 
ment le plus puissant entre H, = 8e 6,)et H, = {8e 6,}, par contreil est 
possible de construire des tests asymptotiquement minimax. 

Faisons d’abord une remarque générale qui facilitera les raisonnements 
ultérieurs, savoir que l’on peut toujours « reparamétriser » le problème de 
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test envisagé (c’est-à-dire introduire un nouveau paramètre) de telle sorte 
que la matrice d’information 7 = 7(8,) soit une matrice unité au point 8,. Il 
suffit pour cela d’effectuer une transformation ‘linéaire (cf. $ 2.1) et 
d'introduire le nouveau paramètre 8 à l’aide de l’égalité 


6 = BI- "2, 


La matrice d’information de Fisher J(B) pour la famille paramétrique 
P,,-,2 sera alors égale au point 8, = 8,7!/?à 


B 
JB)=1""HI-V22E. 


Dans ce numéro on se servira parfois du paramètre 8 par simple raison 
de commodité. On pourra toujours revenir au paramètre primitif à l’aide 
de la transformation réciproque. 

Soit donc 7 = 7(8,) = E. Nous étudions le problème À de test au vu 
d’un échantillon X € P, de 


= {10 — 8,1 < an l’?] contre H, = {18 — 8,1 > bn-!/?},a < b. (4) 


en 3. Le test du rapport de vraisemblance + défini dans (1) 
pour c convenablement choisi, 6, = {8 : 18 — 6,1 < an-l/?] er 6, = 
= {0:10 — 6,1 > bn-!”?|, est asymptotiquement équivalent pour tous 
0 < a < b < © aux tests 


FAR ” 
ly*læl16*"-8)Vnl>ce,, (6) 


où c?est la solution de l'équation en c 
P.Q@)=P(E, +a)} +£3+...+E>c')=e, (7) 


et est un test asympiotiquement minimax de niveau asymptotique 1 — € 
entre les hypothèses H, et H, définies dans (4). Les variables aléatoires E; 
dans (7) sont indépendantes et £; € #, ,. La puissance limite garantie des 
tests +, (5) et (6) est égale à Pe. (b). 


DÉMONSTRATION. Le problème B consiste ici à tester au vu d’une 
observation Ÿ € #, ; l'hypothèse 8, = {lyl < a} contre &, = {lyl > 
> b}. Nous avons vu dans l'exemple 9. l que dans ce problème î existait un 
test minimax de niveau 1 — €, de la forme 


IYI ><. 


Nous nous sommes servis du théorème 9.1 pour construire ce test. Ceci 
exprime que les conditions du théorème 14.2 sont remplies. Donc, le test 


l°T> ec, 
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sera asymptotiquement minimax de niveau asymptotique 1 — € pour le 
problème À. 
Le test du rapport de vraisemblance (1) sera ici de la forme 


sup Z,(un-!/?) 
lul>b 


RX) = > 
CE) Sup Z,(un-!/?) 
ulÇa 


c. (8) 


En reprenant ad litteram les raisonnements des démonstrations des 
théorèmes 1 et 2, on trouve que R(X) = 7,(4) + e,(X),e,(X) eu 0, où 
6; 


Le 2 
sup exp ?— —|y*" — ul 
(ul >b 2 


T,(X) = r(y°) = 
LÉ: 2 
sup eXp É 3 ly* — ul } 


lulça 
Comme dans ce qui précède, on déduit de là l’absolue continuité de la 
distribution de r(Y) et l’équivalence asymptotique des tests R(X) > cet 
T,(X) > c. Le dernier test est équivalent au test 


ly° 1 > c° 
qui pour c” = c, sera un test de niveau 1 — €. En vertu du théorème 14.2 


(cf. (14.10)) il admettra une puissance limite garantie égale à Pc, (b) (cf. 
théorème 9.2). <« 

REMARQUE 1. Si l’on revient au paramètre primitif, on constate que ce 
théorème est valable pour les hypothèses H; = {8 e 6), où (comparer avec 
l'exemple 9.2 pour o? = 7-!) 

6, = {8 : @ — 8,)7(6,)6 — 8,)7 < a?n”!}, 
6, = {8 : @ — 8,)7(68,)6 — 8,)7 > b?n”!}. 


Le test (6) devient 
6° — 8,)70,X60° — 8,)7n > c? 
ou (cf. théorème 13.2) 
L'(X,0,)17'@6,XL'(X,0,)7 > c2. (9) 


Le test du rapport de vraisemblance ne change visiblement pas, puisque le 
maximum de /,(X) dans 6; est invariant par un changement de variables. 

Signalons également que le test (9) est parfois de forme plus commode 
que (5) et (6), puisqu’il n’est pas lié au calcul de 8 *. On peut effectuer les 
mêmes changements pour les tests (2) et (3) dans les théorèmes 1 et 2. Nous 
laissons ceci au soin du lecteur. 
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REMARQUE 2. On peut construire exactement comme dans le théorème 
3 un test asymptotiquement minimax pour des problèmes À susceptibles 
d’être ramenés au problème B envisage dans l’exemple 9.5. 

REMARQUE 3. Au $ 13 nous avons construit un test asymptotiquement 
bayésien entre les hypothèses {9 = 8,] et {8 # 8,}, ayant la forme du test du 
rapport de vraisemblance 


3 (X) 


ÿ, CO > C 


Ce test asymptotiquement bayésien est donc aussi asymptotiquement mini- 
max entre les hypothèses {9 = 8,} et {(0 — 8,)Z(8,)0 — 8,)7 > b?n-!) 
pour tout b > C. 

4. Test asymptotiquement minimax relatif à l’appartenance de la loi de 
l’échantillon à une sous-famille paramétrique. Nous allons étudier mainte- 
nant le test du rapport de vraisemblance dans un problème légèrement plus 
compliqué de choix entre les hypothèses H, = 8 e6,}et H, = #e®,;) 
lorsque la dimension / de l’ensemble 6, est telle que 0 < dm86, =/<Kk, 
où & > 1. Plus exactement, soit donnée une fonction régulière 9 = g(œ) 
d’un paramètre /-dimensionnel (/ < k) « € À, C R!. Désignons par ©, 
l’image de À, dans 6 par l’application g. Le problème consiste à choisir 
entre l’hypothèse H, = {0 € O,] que le paramètre 8 appartient à la 
« courbe » 6, (ou que X € P,,,, pour un & € À.) et son alternative [X € 
E P,;,0&90,), de sorte que dans ce cas 6, = 6 X6,. En d’autres termes, 
ce problème consiste à vérifier que la loi de l’échantillon X appartient à une 
sous-famille paramétrique de distributions [P,,,, « € À,]}. 

Font partie de cette classe les problèmes déjà envisagés de choix entre 
les hypothèses {X € e.. ANt(XES, :;:a # «) pour a, donné et 0° 
inconnue ou de choix entre les hypothèses {X € P, Jet {Xe Pu:0 # 
# 00] pour o, donnée et « inconnue, etc. : 

On admettra que la courbe 0 = g(œ) dans © est deux fois continüment 
différentiable et que la matrice G = l0g;(x)/0a;1 (Chi) 1l::.: 
.…, |; g;(œ) et à; sont les coordonnées respectives de g (œ) et æ) est de rang /. 
Ceci exprime que nous pouvons effectuer un changement de paramètre 
biunivoque différentiable (une reparamétrisation du problème), de sorte que 
les / premières coordonnées (sans nuire à la généralité on peut les poser éga- 
les à œ = (@,, .…, æ,)) définissent la position du point 8 sur la courbe 6, et 
les autres (que nous désignerons par 8 = (B,, …, B,_,)) la position du 
point 8 dans le « plan » (dans le sous-espace), disons, orthogonal (mais pas 
nécessairement) à la « courbe » g (œ) au point æ. Le problème revient alors 
à choisir entre les hypothèses {8 = 0] et {8 # 0} en présence d’un sous- 
paramètre fantôme « inconnu. 
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Ceci étant, nous considérerons des hypothèses voisines en posant 6 = 
= y”"n7/l/2et nous testerons l’hypothèse {y"” = 0] contre {y # 0] ou con- 


tre 
N'M@h "T2 b°] (10) 


pour b > 0 et une matrice M,(aœ) définie positive. 

Dans les coordonnées primitives, le dernier problème consiste à tester 
l'hypothèse H, = {8 e 6] contre des hypothèses concurrentes voisines où 
le paramètre 8 est situé dans un n - !/2-voisinage de la courbe ©, et à l’exté- 
rieur d’un « tube » contenant 6, et correspondant à l’ensemble (10). Une 
autre position du problème de test d’hypothèses voisines part du fait que le 
paramètre 8 est « localisé » au voisinage d’un point 8, = g(a°), «° € À. 
Le nouveau paramètre 7 = (8, œ — æ°) sera alors localisé au voisinage du 
point 7, = (0, 0). Posons & — æ° = y n7!/2,8 = y'’n-!/2et éprouvons 
l'hypothèse {y = 0} contre {y”” # 0) ou contre {y""M,(&°}y "7 > b?}en 
présence d’un paramètre fantôme y’. 

Les résultats fournis par ces deux approches sont pratiquement les 
mêmes mais on optera pour la deuxième, car on dispose dans ce cas de tou- 
tes les données préliminaires nécessaires. L'hypothèse de la localisation du 
paramètre 0 revêt un caractère conventionnel, et la forme des propositions 
établies plus bas sera indépendante de 6,. 

On admettra donc que le nouveau paramètre 7 = (œ — æ°,B) est de la 
forme 
ei Te T) 
et l’on éprouvera l'hypothèse H, = {y”’ = 0] contre H, = {y"M,y "7 2> 
> b?}, où pour M, = M,(&°) on prendra la matrice d’information de Fi- 
sher pour la famille paramétrique {P,,4 4} au point 8 = 0, où @(r) = 
= O0((æœ — æ°, B)) est une fonction qui restitue 8 au vu de 7 = (r',7°). 


T = yn 


THÉORÈME 4. Supposons que 0, = g(a°) est un point intérieur de 6 au 
voisinage duquel sont remplies les conditions (RR). Supposons par ailleurs 
que la fonction g (x) est bicontinäment différentiable au point à° et que la 
matrice G = 10g;(œ)/0a;l, _ est de rang I. Pour les ensembles 6, et 6, 
définis plus haut et pour un c convenable, le test du rapport de vraisem- 
blance (1) est alors asymptotiquement équivalent aux tests 


Je (X) h,/2 11 
T ” 
G* — gG°)DI(&G° DO* - GT > hn°!, 
6° — 8@" 16° )6" - gG)T > hn°! 


R,(X) = 
(12) 


et est un test asymptotiquement minimax de niveau asymptotique 1 — € de 
H, ={@6Ee6,]= {y" = 0} contre H, = {ÿ"M,7"7T > b?]. 
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La distribution de la statistique 2 \n R,(X), où X € PL) (C nu 
pour l'hypothèse H,), converge, lorsque n — >, vers une dist tribution du x? 
à k — l degrés de liberté (donc est indépendante de f, et x°). De ce fait, la 
quantité k de (11) ef (12) désigne le quantile d’ordre 1 — € de la distribu- 
tion H,_,. 

La puissance asymptotique garantie du test du rapport de vraisem- 
blance est égale à P((E, + b)?+ #3 +. +E} ,> &,),oùE, € &, ,sont 
indépendantes. 


Nous voyons que les tests asymptotiquement minimax (11) et (12) ne 
dépendent en aucune façon de &°. 

REMARQUE 4. Par rapport à 8 l’hypothèse H, peut être mise sous la 
forme 


H, = {inf @ — g(a° + y'n7"2)1(g(«°))@ — g(a° + y'n-12))7 > 


> b?n”!]. 


On rappelle que l’on a postulé que les ensembles l'; sont bornés, de sorte 
que (@ — 8,)< Nn-!”2,1y'1 < NpourunN > 0. 

REMARQUE 5. On verra dans la démonstration que le théorème reste 
entièrement en vigueur si l’on remplace H, = {y = 0) par H, = 
= {y"M,y"7T < a], a < b, et l’ensemble 6, par l’ensemble correspon- 
dant. 


DÉMONSTRATION du théorème 4. Pour « principal » test on prendra le test (11) qui est 
équivalent à (1) et de forme plus commode. Nous montrerons qu'il est asymptotiquement 
équivalent à un test asymptotiquement minimax et ensuite qu’il est asymptotiquement équiva- 
lent au test (12). 

Traitons les distributions P,cetP pla) COMME des distributions dépendant des paramètres 
r=(r',7")eta=7r + a° respectivement. Posons 7 = yn”!/2,7 = Gr ,Y"), mp 
r' = y'n7 2, 7” = y’n7 17, et testons l'hypothèse H, = fy” = 0) contre H 

= {y"M,y"72> b?], où M, est la matrice d’information de Fisher pour la famille {P 
point a: Effectuons maintenant une autre transformation sur le paramètre 8 comme nous 
l'avons fait dans l'exemple 9.4 pour transformer les matrices d’information en matrices uni- 
tés. Plus exactement, posons p = 7A et respectivement ô = yA (o = ôn ”!/2), où A est une 
matrice triangulaire décrite en détail dans l’exemple 9.4 et douée des propriétés suivantes : 


1 — ATAS-IA — 1 — ATAg-I se 
J'=ATMO'A=E, Jj'=AÎMS'A,=E, 


où J, M, J, et M, sont les matrices d’information au point 8, respectivement pour p,7,p" et 
Tr” (les accents ont la même signification que ceux de 7°,7",7" et y”), À, est une (K — 
— Îl}-matrice formée par les À — / dernières lignes et colonnes de la matrice A, de sorte que 
p” =17"A,,8" = Y'A. 

Par rapport aux nouveaux paramètres, les hypothèses H, et H, s’écrivent 


H,={65"=0, H,=1{15"1 >b)]. 


Les propriétés des transformations effectuées nous montrent clairement que 8 = 8(o) est 
une application bijective et que toutes les familles paramétriques envisagées (y compris celles 
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dépendant des paramètres p et »”) vérifient les conditions (RR). Posons p, = 87 !(8,) (ceci 
est la solution de l’équation 8(b) = 8,) 


20) = Sappen//0 A) Yotu) = In Zn 7?) 
Utilisons le théorème 2.29.3. Nous obtenons pour lul < 6 Vn, X € Po) 


p = p9 + on’, 


Y,(u) = (E, + ô,u) — - (u,u) + (lul? + 1512}, CX, u, 6), (13) 


où le, (X, u,6)l < € n(X), — 0 uniformément en à pour lôl < ô,Vn, ô, étant une suite arbi- 
Pac) 

traire convergeant vers 0. Dans ces égalités on s’est servi du fait que la matrice d’information 
pour le paramètre p est une matrice unité. Le vecteur £, est le vecteur des dérivées de la fonc- 
tion n — l/2L(X, 0()) par rapport àp; au pointp = p9 + ôn 1/2, de sorte que£, € #, ,uni- 
formément en p (en 6) pour lôl < F Vn. (Vu que nous avons admis que (9 — 8 Va était 
borné, il suffit dans la suite d’° établir la convergence uniforme dans 16! < N pour on N fixe 
quelconque. Mais rien ne nous empêche d'établir l’uniformité exigée dans le domaine plus 
vaste 16! < ô Vn — ©.) 

Posons maintenant u = (u”,.u”)},u” = 0, dans (13). On a alors, compte tenu de la con- 
vention précédente sur les notations avec les accents, 


Yu”, 0) = &: + 5”,u) — ; @',u”) + (ul? + 1812} (X,u”,6). (14) 


Des relations (13) et (14) on déduit que Y,(u)et Y,((u”, 0)) atteignent leurs maximums respec- 
tivement pour 


u = (E, + 8XE + €,(X,8)), 


= (£° + 6'XE + eU(X, 5)), Fo 


oùe,(X,5) ,— 0, eOCX, 6) , — Ouniformément en 6, 151 < &,Vn /2. Il suffit simplement de 
Pate) 0) 
remarquer que la probabilité des grandes valeurs l£, + ôl est uniformément! petite, puisque 
£, + 5 € #, , uniformément en 5, 15! < 6 vn, et P,CIE, + 61 > 6 Vn) — 0 uniformément 
enô, 161 < 8. Vn /2. 
Considérons maintenant le test du rapport de vraisemblance. Pour 8 = 8), X € P,,0 = 
= Po + ôn 


RE 
Sup ARCS ) Sup e 


exp Ë LE, +612+6€ (X, ) 
a op IE: + 6”i +008 } (6) 


exp Ge + 8° 1? + (x, ”) 
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où les fonctions €, affectées d'indices différents convergent vers 0 en P probabilité uniformé- 
ment pour lôl < "6, Vn ; 


2InR(X)=1Y"+6"l4, Yet, (17) 


uniformément en 6. 


Etant donné que pour 8 = g(x) on a nécessairement 6” = 0, on en déduit l’assertion du 
théorème relativement à la statistique 2 In R,CX). 


Si on se rappelle maintenant (cf. théorème 2.29.3) quef£, = u *(E+e (4, 6)), où u° = 
= (9° — p)Vn etp° est un estimateur du maximum de vraisemblance de + on déduit de là et 
de l'égalité ob; = 0, en posant 6° = (9° — p,)Vn, que 


E, + 6 = VnG° — 0 + p — pQ) + u°e,(X, 5) = VnG° — 05) + 


+u°e,(X, 86) = 6° + u°e,(X, 6) € &, ,, 
E, +6" = (6°)" + (u°e,(X, 6)”. 


| 
Donc, le membre de droite de (16) peut être mis aussi sous la forme exp C 16° )"12 + 
+ € "(X, 6) } €," (X, 6) > 0. Ce qui exprime que le test 
0] 


16*)"17>h, (18) 
est asymptotiquement équivalent à un test du rapport de vraisemblance, c’est-à-dire que 


h,/2 ° nv ” 
Jim sup PR A) > € ) = lim, sup PU G J'I>h)=e, 


lim. a P,(R,CX) > e%77) = lim. sup P,(1G°)"12> À) = 
n— 6e0; 


n—® 


= sup PUY" + 6"1?> h) = PO, + b) + y2 + … + y > À), 
15"1>b 


où y, € ë, , Sont indépendantes. 

Montrons maintenant que le test (18) est un test asymptotiquement minimax de niveau 
asymptotique 1 — €. Utilisons le théorème 14.2. Dans notre cas 5° = (9° — p,)Vn € #, 
Nous avons étudié le problème B pour Y € & BE dans les exemples 9.3 et 9.4. Nous avons ‘éa- 
bli que le test 


IY2>h 


est minimax de niveau 1 — €. Donc, le test (18) est asymptotiquement minimax en vertu du 
théorème 14.2. 
Pour achever la démonstration il reste à établir l’équivalence asymptotique de (11) et de 
(12). Cette équivalence découle sans peine des résultats du $ 2.29 et du lemme 14.1. < 
EXEMPLE 1. Soit X € #, :, où À et o? sont des paramètres scalaires. 


(Nous utilisons ici À au lieu du traditionnel æ pour éviter toute confusion 
avec l’argument de la fonction g(œ).) On demande de tester l’hypothèse 
A = À) contre À # À,] ou contre {IA — À,l > bn-!/?},b > 0, le paramè- 
tre o« étant inconnu. Si les composantes À et “1 du vecteur 8 = (À, a?) sont 
toutes deux inconnues, un estimateur du maximum de vraisemblance pour 
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0 est l n 
0° = (À, o?)* — (x, S?), S? — ps » (x, We x}? 


Si À = À,, un estimateur du maximum de vraisemblance pour o? est : 


(o?)* = S? = Y (x; — Ào)°, de sorte que g(a°) = (A, S?). Comme 


fo(X) = (V2r 0)7" exp [— (202)! Y (x; — À)?), 


le test du rapport de vraisemblance (11) sera de la forme 


S?/S?> c. 
Puisque S? = S2? + (x — À,)°, ce test est équivalent à 


On reconnaît ici le test classique de Student que nous avons étudié antérieu- 
rement (les propriétés optimales de ce test sont accessibles au & 7). 

Il est immédiat de vérifier que le test (12) sera de la même forme. En 
effet, au $ 2.16 nous avons vu que la matrice 7 (8) pour la famille & x, 02 EST 


de la forme .. ES 5 
SE (6 0) 


Iciô* — g(a*) = (x — A9, S2— S2) = (x — À, 1 — Ào}?), 


= S”! 0 
1"2@°) = : 
= sn) 
Puisque le premier membre de (12) est le carré de la norme |(£g(aœ°) — 
— 0° )11/2(8"* )l2, le test (12) sera de la forme 
(x — A0), (x — À) 
OS * 28. 
qui est visiblement équivalente à (19). 


Si on utilise Z(g (œ* )) au lieu de Z(8* ), on obtient le test asymptotique- 
ment équivalent 


>. Ci, 


EXEMPLE 2. Soit X € &, . On demande de tester l'hypothèse {o = 05} 
contre {| a? — ojl > bn - !/?] lorsque À est inconnu. Il est évident que l’esti- 
mateur du maximum de vraisemblance 0° de 8 = (À, o?) sera le même que 
. l'exemple précédent. Si o = a, alors À* = x, et g(a°) = (x, 02), 

* — g(a° } = (0, où — S?). 
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Les tests (11) (ou ce qui revient au même le test du rapport de vraisem- 
blance) seront de la forme 
(S? — 03) /0$ > 2h n°, 
qui est visiblement équivalente à 
12/02 — 11 > Van, 


où &, ,0h//2, œ[) = €/2. Nous avons étudié ce test aussi au $ 7. 
D’autres exemples d’application du théorème 4 sont accessibles au $ 17. 


8 16. Test du x2. Test d’hypothèses d’après des données groupées 


1. Test du x2. Propriétés d’optimalité asymptotique. Le test du x? est 
« initialement » un test de choix entre l’hypothèse simple H, = {8 = plet 
sa complémentaire H, = {0 + p},p = (p,,...,p,), au vu d’un échantillon 


X issu de la loi polynomialeB,, 0 = (9,,...,8,), ÿ 0; = 1. La distribution 
i=] 
polynomiale B, est décrite par les probabilités 8, = P(A4,), i = 1, ….,r, 
d'apparition en une épreuve de l’un des r événements disjoints 4,, …, 4,. 
On peut se représenter un élément x, de X € B, comme un vecteur e, , K = 
= 1,...,r, dont la composante d'indice £ est égale à 1 et les autres à 0 ; de 
plus x; = e, si l'événement À, s’est produit. Désignons par », le nombre 
d’apparitions de À, en nr épreuves indépendantes. Alors » = (v,,.…,»,) = 
= y x; est une statistique exhaustive pour 8, puisque la fonction de vrai- 
is] 


semblance Ja(X) est de la forme 
fCX) = I] 6. (1) 
ii 


La statistique x? est par définition 


6; np} 
2(X) = i LORS 
X°(4) ) AP. 


t=) 


et la région critique du test du x? (la région d’acceptation de H.) est de la 
forme 


x (X)>c, 


où c est choisi en fonction du niveau du test. 
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Appesantissons-nous sur le problème de test de H, = {8 = p}] contre 


= @ +p}. 
Il est clair que les distributions B, forment une famille paramétrique 
dépendant d’un paramètre (0,, ..,0,_,) de dimension &k = r — 1 ; le para- 


mètre 6, prend la valeur 0, = 1 — Ÿ° 6;. On désignera les vecteurs (9,, … 
i=1 
.…. 0,_,) et (8,, .…, 0,) par la même lettre 8 sans on de confusion. La 


région 6 est le simplexe 8, > O,i = 1,..,r — 1, 5 0, < 1. Le logarithme 


de la fonction de vraisemblance L (X, 0) est égal : 


L(X,6) = ) », M0, = >) 1(x,, 6). (2) 


K=] im] 
La famille {B,) vérifie les conditions (40) (4,,), (A) ainsi que les condi- 


tions de régularité (RR) en tout point intérieur de 6, c’est-à-dire en tout 
point 8 pour lequel tous les 8; > 0. En effet, dans le cas considéré 


87! Îlsil x, =e, 
J 1 J” 
ne 0) _ —07! si X, = e,, (3) 
0 sil X #6, X £#e,, 
_ bij sil x, =e,;, 
91,0) __) @ 
96,90, —07? |sil x, =e,, 
(4) sil x, #e,,xX, #e,, 


où ô;; est le symbole de Kronecker. On voit sur ces formules que 
921(x,, 0) O1(x,,0)  O[(x,, 0) 


ee = mn 


36,86. 86, 30, 


La partie des conditions (RR) concernant l’existence des espérances 
mathématiques est manifestement réalisée, puisque l’ensemble 2° est fini. 
De (3) et (4), on déduit que 


were [ete]. [ef 


,J=l,7r 1. 


I,J<r— ]. 
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Dans cette matrice, si l’on soustrait la première ligne de toutes les autres et 
que l’on développe le déterminant suivant cette première ligne, on obtient 


TG) = (: + > :)II gr1= (II s) 
j=1 j=1 j=1 


Donc, 0 < 17(8)1 < o si Il 8, > 0, c’est-à-dire si 8 est un point inté- 
k=1 
rieur du simplexe 6. 

Nous voyons donc que nous pouvons à juste titre appliquer les résultats 
des $$ 13 et 14 sur les tests asymptotiquement optimaux. De ces résultats il 
découle qu’il existe un test asymptotiquement bayésien de H, = {8 = p} 
contre H, = (8 + p] qui est confondu avec le test du rapport de vraisem- 


blance 
J5(X) 
1,00 


Ce même test sera asymptotiquement minimax de FH, contre {(8 — 
— p)1(0)6 — p)7 > b?n-!] (cf. théorème 15.3). 

Pour déterminer la région critique de (6) sous une forme plus com- 
mode, calculons la valeur /;.(X). Une dérivation de (2) par rapport à 
0,, .…,0,_, nous donne 


> c. (6) 


06, 0, 6 


4 Ü r 


En égalant ces dérivées à zéro, on trouve que l’estimateur du maximum de 
vraisemblance est 


de sorte que ô* = n°!».. 
En passant aux logarithmes, on peut donc représenter le test (6) sous la 
forme 


ÿ(X) = » nn ti>e. (7) 
il] 

Le théorème 13.1 (cf. aussi le lemme 13.1) nous dit que la statistique 
2#?(X) pour l'hypothèse H, admet une distribution limite du x° à r — 1 
degrés de liberté. Pour cette raison, on obtient un test de niveau asymptoti- 
que 1 — € si l’on pose c, = h,/2, où h, est le quantile d’ordre 1 — € de la 
distribution H,_.. 
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Comment se présente dans nos conditions le test x” asymptotiquement 
équivalent à (6), obtenu dans le théorème 13.2 sous la forme 


n@° —-p)(@)6* -p)'>h,? (8) 


Pourt = (t,,...,1,_,),5 = Ÿ t,,ona 


I) = (ri. li + 3 
1 Pr Pr-1  P, 
Pi r 
" 12 s? 1? 
ur = Ÿ tm ÿ (9) 
D; D, D; 
is] im! 
où : 


En posant t = Ü* — p et en remarquant que la condition (10) est remplie, 
on obtient pour (8) le test 


r : 2 
» GEL SE. (11) 
np; 
im] 


Ce qui n’est autre qu’un test du x2. Des propositions précédentes il 
résulte que x°(X) € H,_.. 

Le test x ” du théorème 13.2, qui est asymptotiquement équivalent à (7) 
et à (11), sera de la forme 


à = Sn 

) Gi npY > h,. (12) 
}; 

is] 


En tenant compte aussi du théorème 15.3 et de la remarque 15.1, on peut 
résumer ce qui vient d’être dit par la proposition suivante. 


THÉORÈME 1. Le test (7) pour c, = h,/2 ainsi que le test du x? (11) et le 
test (12) possèdent un niveau asymptotique égal à 1 — e et sont des tests 
asymptotiquement bayésiens de (8 = p] contre {8 + p\auvudæexXeB,,. 
Ce sont également des tests asymptotiquement minimax de {0 = p} contre 


l'alternative voisine D (@, — p,)/p; > bin) pour tout b > 0. 


im) 
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On aurait pu établir directement l’équivalence asymptotique des tests 
(7), (11) et (12) en développant In _ = In (: + 1" ) en série dans 


i np Î 
(7). 

Ces tests sont asymptotiquement non paramétriques, puisque la distri- 
bution limite des statistiques utilisées est « absolue », c’est-à-dire n’est pas 
liée à la nature de la distribution initiale. 

2. Applications du test du x2. Test d’hypothèses d’après des données 
groupées. Le test du x? est très répandu et sa portée dépasse le cadre du pro- 
blème envisagé dans le numéro précédent. 

Considérons le problème général de choix entre l’hypothèse H, = {X € 
€ P,}et l’hypothèse H, = {X € P,P + P,}, étudié dans le $ 12. Vu 
qu’une théorie des tests optimaux, tant soit peu développée, n’existe que 
pour le cas paramétrique, une idée assez naturelle est de tenter de 
« paramétrer » *) ce problème d’une manière ou d’une autre. 

Le moyen le plus simple et le plus naturel dans le cas général est le grou- 
pement des données qui consiste en ce qui suit. On divise le domaine des 
valeurs possibles des variables observées (c’est-à-dire l’espace 2°) en r 
domaines disjoints A,, …, À,, et au lieu de l’observation x, on n’envisage 
que l'intervalle A, la contenant. En d’autres termes, nous rendons les 
observations plus grossières, et les x; contenus dans A, , nous pouvons les 
remplacer par une valeur z, € À, . Il est clair qu’en choisissant une partition 
assez fine on peut approcher x; d’aussi près que l’on veut par z,.. 

Ainsi, le groupement conduit à remplacer l’observation x, par un vec- 
teur e, si l'événement 4, = {x; € A.) s’est produit (les vecteurs e, ont été 
définis au début du numéro précédent). Mais le nouvel échantillon 
obtenu par cette procédure n’est autre, de toute évidence, qu’un échantil- 
lon distribué suivant la loi B,,0, = P(x;e A,). Nous savons déjà que dans 
ce cas le vecteur » = (v,, .…., »,) des fréquences d’atteinte des intervalles 
À,, ..…, À, sera une statistique exhaustive. 

Cette réduction de l’échantillon X au vecteur » s’appelle groupement 
des données. 

Il est clair que le groupement se solde par un certain 
« appauvrissement » de l’échantillon X et par une perte partielle d’infor- 
mation. 

Mais cette paramétrisation peut être envisagée sous un angle légèrement 
différent. Supposons pour plus de suggestion que Z° = R et que toutes les 


+) On a en vue un paramètre 8 de dimension finie. Tout problème peut être considéré 
comme étant paramétrique si l’on admet que 8 est de dimension infinie, car on peut alors 
l'identifier à P, X € P. 


27—4195 
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distributions envisagées sont concentrées dans un intervalle fini et admet- 
tent une densité, c’est-à-dire vérifient la condition (A L); OÙ p est la mesure 
de Lebesgue. Pour une subdivision donnée {A,, .., A,], considérons la den- 
sité f (x) et la densité constante par morceaux 


_ PQ) _ 1 _6, 
JA ne a | ua - A; pour XEÀ,. (13) 


À; 


On désigne aussi par A; la longueur de l’intervalle A;. On reconnaît ici une 
famille paramétrique de distributions P,, P,(B) = | f,(x)dx. 
B 

On obtient un échantillon Y € P, si pour chaque & on rassemble toutes 
les observations de X € P tombant dans A, et qu’on les répartisse de façon 
aléatoire et uniforme sur A,. Au fond nous avons réalisé la même chose 
que précédemment, puisque le fait de savoir en quel point de l’intervalle A, 
se trouve l’observation y; ne fournit aucune information sur le paramètre 
8 : la fonction de vraisemblance /,( Y) ne change pas dans les limites de ses 
intervalles lorsqu'on « déplace » les observations. Il suffit donc de 
connaître le nombre »,, .…., », des observations contenues respectivement 
dans A,, …, À,. 

Il est clair que si f(x) est une fonction régulière, f,(x) l’approchera 
assez bien pour une subdivision {A,, .…, À,]} assez fine. 

Les relations (13) définissent un autre procédé de paramétrisation qui 
est équivalent au premier. L’équivalence résulte de la coïncidence, à un fac- 
teur multiplicatif près indépendant du paramètre, des fonctions de vrai- 
semblance. Pour la distribution (13), la fonction de vraisemblance est égale 
à 


Ja(Y) = ll 0° II AT", 


1-1 im] 


où le premier facteur est la fonction de vraisemblance pour un échantillon 
distribué selon la loi B, (cf. (1)). 

A noter que le groupement des observations se présente assez fréquem- 
ment en soi non pas à des fins de paramétrisation, mais simplement comme 
un procédé plus commode et plus économique de représentation de l’infor- 
mation contenue dans un échantillon. Si par exemple 7 = 10“ et que les 
valeurs observées sur l’intervalle [0, 1] soient mesurées au dixième près, il 
est clair alors qu’il est pratiquement superflue de connaître toutes les 10 
observations et qu’il suffit d’indiquer les 10 fréquences »,, ..., »,, d'accès 
aux intervalles A, = Ji — 1)/10, i/10[, i = 1, .…, 10, c’est-à-dire de 
connaître seulement l’histogramme de l'échantillon. 
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Revenons au problème de choix entre H, = (XEP,jet H,={XE P + 
+ P,}. On admettra que le groupement des observations est tel que le 
désaccord entre P et P,, qui est significatif pour nous, se répercutera obli- 
gatoirement sur la distribution des données groupées. Notre problème peut 
alors être considéré comme un problème de choix entre l’hypothèse {8 = 
= p}, où p;, = P,(A,) et l'hypothèse contraire {8 # p] pour les familles 
paramétriques B, ou (13). On sait déjà que le test du x? (de même que les 
tests (7) et (12)) sera asymptotiquement optimal dans ce problème au sens 
Jormulé dans le théorème 1. 

Par ailleurs, le test du x? est asymptotiquement non paramétrique, puis- 
que la distribution limite de la statistique x(X) pour H, ne dépend pas de 
la distribution initiale de l’échantillon X. 

Ceci étant, signalons que le test de l’hypothèse {8 = p} pour les familles 
(13) ou B, n’est pourtant pas équivalent au test de l’hypothèse {X € P,), 
bien qu’il puisse en être proche si la subdivision {A,, …., À,} est assez fine. 
En effet, on teste l’hypothèse X € P, P(A,) = p, = P, (A). Ceci rend le test 
du x? n0n convergent par rapport aux hypothèses alternatives P + P, telles 
que 8, = P(A,) = P,(A;) = p;. Nous pouvons donc noter une fois de plus 
que le test du x? est un test qui est doué de nombreuses propriétés d’optima- 
lité asymptotique mais qui n’agit que contre les alternatives modifiant le 
vecteur 8, c’est-à-dire contre les alternatives pour lesquelles [P(A,)} + 
# (P,(A;)] = (p;). 

Faisons quelques remarques sur les applications des tests du x, (7) et 
(12). On parlera essentiellement du test du x?, puisque d’une part les tests 
précités sont voisins l’un de l’autre, et d’autre part le test du x? (en partie en 
raison de sa suggestivité) est de loin le plus répandu. 

Le niveau du test du x?(X) > h, n’est égal à 1 — € qu’à la « limite ». 
L'expérience montre que pour € > 0,01 le vrai niveau n’est passablement 
approché par 1 — € que pour np; > 8,i = 1,...,r. 

Lorsque le nombre r de groupes est élevé, disons que nr > r > 30, on 
peut se servir de l’approximation normale aussi bien pour la distribution de 


_. (2 — r), x? € H, (cf. $ 2.2) que pour la distribution pour H, de la 


statistique x?(X) normée par les moments 
Ex2(X) = r — 1, 


UN 
Vx2(X) = 2(r +3 (Y pr 2r + 2) 
im] 


On se sert souvent aussi de l’approximation normale &, ; pour la distri- 
bution de la variable aléatoire (cf. $ 2.2) V2x? — V2r —- 1,x2E€ H.. 


21" 
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Signalons également que lorsque le nombre de groupes croît, la densité 
f(x) se laisse mieux approcher par une fonction en escalier construite à 
l’aide des valeurs P,(A,) = | f(x)dx. Ceci exprime que le nombre d’hypo- 

à; 
thèses contraires à H, croît, et le test du x? a tendance à devenir un test rela- 
tif à la densité. Donc, la puissance d’un test du x? de niveau fixé diminuera 
lorsque le nombre de groupes augmentera (comparer avec les remarques du 
paragraphe précédent sur le test de Moran. Pour plus de détails voir [12], 
[81]). 

Au chapitre des défauts du test du x? il faut noter que dans bien des cas 
c’est au statisticien de choisir la subdivision {A,, .…., A]. Une certaine pru- 
dence est à conseiller, car l’« appauvrissement » de l’échantillon est réalisé 
de façon subjective. Par ailleurs, cette subdivision est choisie parfois en 
fonction de l’échantillon X, ce qui n’est pas toujours toléré, puisque les A, 
deviennent alors aléatoires (pour plus de détails voir [43]). 

EXEMPLE 1 *). Dans une ville N on a relevé l’heure indiquée par 500 
montres exposées dans les vitrines de diverses horlogeries. Les résultats des 
observations ont été répartis en 12 groupes (en fonction de la position de 
l’aiguille des heures) dans le tableau suivant : 


CESR uS 


On teste l’hypothèse simple H, = {la position de l'aiguille des heures est 
uniformément distribuée sur le cadran) contre l’hypothèse contraire multi- 
ple. 

Dans cet exemple, 7 = 500, p;, = 1/12, i = 1, …, 12, np, = 41,67. Le 
théorème 1 nous permet d’admettre approximativement que x?(X) € H,.. 
Dans cet exemple on s’assure par un calcul immédiat que x2(X) = 10, et le 
niveau réel du test du x? est environ égal à 1 — H,, (10, œ[) æ 0,47 (cf. 
tableau III). Ceci exprime que les résultats de l’expérience s’accordent avec 
l'hypothèse H, du point de vue d’un test du x? de niveau 1 — € compris 
entre 0,47 et 1. 

Nous avons déjà mentionné que le test du x? est largement répandu. 
Son champ d’application ne se limite pas aux seules hypothèses simples. 
Nous nous en assurerons dans le paragraphe suivant. 


Secteurs horaires 


Nombre d’observa- 
tions 


°) Cet exemple a été emprunté à [19]. 
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$ 17. Test d’hypothèses relatives à l’appartenance de la loi de l’échantillon 
à une famille paramétrique 


Considérons le problème de choix entre l’hypothèse multiple H, = 
= {(X € {P,)..,] et son alternative H, = (XE P,P&{P,}.,]. L’hypo- 
thèse H, peut par exemple consister à vérifier que X est tiré d’une popula- 
tion normale. 

Un autre exemple d’hypothèse H, est que X € B,,,, où dim a < 
< dim 8. Ce problème peut bien sûr être traité comme un problème de test 
de l’hypothèse que X est distribué suivant une loi d’une sous-famille para- 
métrique (cf. $ 15) mais la première interprétation est exacte aussi, car dans 
le cas où l’expérience ne donne lieu qu’à un nombre fini d’issues possibles 
(cf. définition de B, dans le $ 2.2), la famille {B,] contient toutes les distri- 
butions possibles de l'échantillon. 

Dans le numéro suivant on étudiera le problème de test de l’hypothèse 
[X € B,,,,) et on montrera que le problème général d’appartenance de la 
loi de l’échantillon à une famille paramétrique peut être ramené au premier 
par un groupement des données. 

1. Test de l’hypothèse {X € B,,,,). Groupement des données. Considé- 
rons le problème général formulé au début du paragraphe dans le cas d’un 
espace arbitraire ©: Prenons une partition de %° en domaines 
(« intervalles ») {A,, .…, À,]} telle que le nombre r d’« intervalles » soit 
supérieur à / + 1, où / = dim «. Groupons les observations sur ces inter- 
valles. Si l’hypothèse H, = {X € P,) est vraie, les probabilités que les 
observations tombent dans les intervalles À; seront égales à 


P;(a) = P, (à). 


Ceci exprime que dans ce cas le vecteur 9 = (8,, ..,8,) des probabilités que 
les observations tombent dans A; doit être porté par la courbe 8 = p(œ) = 
7 (,(@), .…., P,(@)). 

Nous devons donc, au vu de l’échantillon Y € B, obtenu par groupe- 
ment, vérifier l’hypothèse H, que Ÿ est distribué suivant une loi de la sous- 
famille paramétrique {B,,,,}, contre l’hypothèse alternative {Y EB,}, où 
n’est pas situé sur la courbe 8 = p(aœ), « € À. Nous avons déjà envisagé ce 
problème au $ 15 où nous avons trouvé un test asymptotiquement minimax 
de choix entre H, et l’alternative voisine 


H,={(YEB,,inf 18 — p(a, + yn7 2) 2p(a, + yn7 2) > 
L 
> bn”!2) (1) 


(cf. remarque 15.3 suivant le théorème 15.4. Le point æ, désigne une valeur 
« localisée » du paramètre telle que les alternatives soient situées dans un 
voisinage du point 8, = p (æ).) Le test du rapport de vraisemblance (15.11) 
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devient ici 


In R,(X) = max ÿ v;,ln6;— max Ÿ v;lnp;(a) > h,/2, 
im) 
ou ce qui est équivalent 


L ini > h,/2, 
np;(a°) 


CR | 


où à* est un estimateur du maximum de vraisemblance de æ au vu de Y (ou 
de » = (v,, .…, »,)). Ce test est asymptotiquement équivalent (cf. théorème 
15.4) au test 


@G@*)-vn-!)p@)p@)-vn > h,. 


Vu que l’on connaît la forme de la matrice 7 (8) (cf. (16.5)), en se servant 
de (16.9) on déduit du théorème 15.4 le 


COROLLAIRE 1. Sir — 1 > let la fonction p (x) vérifie les conditions du 
théorème 15.4, le test du rapport de vraisemblance de niveau asymptotique 
1 — € de l'hypothèse H, = [X € P,,P, € (P,).1) contre l'hypothèse 
complémentaire H, d'après les données groupées est asymptotiquement 
minimax (de H, contre (1)) et est de la forme 


V. 
v,ln =— > h,/2, 2 
2 np, @) @) 


où h, est le quantile d'ordre 1 — € d’une distribution du x?àr —-1—1 
degrés de liberté. Ce test est asymptotiquement équivalent au test 


us 
22(X) = Cm CRETE (3) 
np;(@& ) 
1=]1 

Le dernier test s’appelle aussi test du x? lorsque ce sont les paramètres 
fantômes inconnus qui sont estimés au vu d’un échantillon. La distribution 
de la statistique x2(X) converge pour l’hypothèse H, , ainsi qu’il ressort du 
corollaire 1, vers une distribution du x? à r — / — 1 degrés de liberté (le 
nombre r — 1 de degrés de liberté dans la distribution limite de la statisti- 
que x2(X) a baissé du nombre de paramètres scalaires tj»... @, estimés au 

vu de l’échantillon X). 
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EXEMPLE 1. Dans l’exemple 2.26.3 on a décrit le mécanisme de trans- 
mission des groupes sanguins 0, À, B, AB. Ce mécanisme est géré par des 
gènes de type À, B et 0. Désignons par p, g etr = 1 — p — g les probabili- 
tés d’apparition de ces gènes dans une population donnée. Les probabilités 
P;(@) qu’un individu soit du groupe à ont été déterminées dans l’exemple 
2.26.3 et rassemblées dans le tableau 1 du $ 26. 

On dispose d’un échantillon X de fréquences »,, i = 1, 2, 3, 4, (cf. 
tableau 1) d’apparition du groupe i, obtenu par un sondage de nr = 353 per- 
sonnes. Dans l’exemple 2.26.3 on a trouvé pour cet échantillon les valeurs 
approchées de l’estimation du maximum de vraisemblance &* = (p°, 
qg°) = (0,246, 0,173). Ceci nous donne les valeurs P;(@* ) du tableau 1. 


Tableau 1. Répartition des personnes sondées d’après leur groupe sanguin 


0,224 
0,231 


Nous obtenons la possibilité d’appliquer le corollaire 1 pour vérifier 
l’hypothèse que le mécanisme de transmission du groupe sanguin se 
déroule bien tel qu’on l’a décrit. En se servant des données du tableau, on 
trouve que la statistique x2(X) (cf. (3)) est égale ici à environ 0,44. Ce résul- 
tat s’accorde bien avec l’hypothèse, puisque la valeur critique À, correspon- 
dant à la distribution du x? à un degré de liberté et à la valeur e = 0,2 est 
égale à h,, = 1,64. 

EXEMPLE 2. Problème des caractères contingents. Supposons qu’un 
échantillon X est le résultat d’un sondage d’objets dont on a mesuré les 
caractères À et B. Le premier est susceptible de prendre les valeurs À4,, … 

., À,, le second, les valeurs B,, …, B,. On demande si ces caractères sont 
dépendants entre eux. Nous pouvons par exemple effectuer une expérience 
G d’issues B,, .…, B, dans des conditions différentes 4,, .…., 4,. Le pro- 
blème consiste à dire si les résultats de l’expérience G dépendent des condi- 
tions de leur réalisation. % 

Ce problème peut être traité aussi comme un problème de test de l’indé- 
pendance de deux variables aléatoires £ et 7 au vu d’observations groupées 
sur le couple (£, n). 

Les résultats des expériences se présentent ici sous la forme d’une 
matrice CPL , Où »;; est le nombre d’apparitions des issues À; et B; dans un 
échantillon X de taille 7 (chaque élément de cet échantillon est un couple de 
caractères de l’objet étudié). 
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t Ss 
Posons p;; = P(4;B;), p;,. = L Pi» P.; = L Pÿ- L'hypothèse H, 


a indépendance des caractères sera lors de la forme H. = {p;; = p;.p.;l.Il 
est immédiat de voir que cette hypothèse concerne éobartenance de la dis- 
tribution de l’échantillon à une sous-famille paramétrique, où le rôle du 
paramètre æ est tenu par un vecteur (s + { — 2)-dimensionnel & = 
= (Di... Ds PD.js es D.1_ 1) (es valeurs p.. et p., sont tirées des égali- 


s—) 1-1 
tés p,. = 1 — y P:.,Pr=1— Y p.) 
is] j=1 


La fonction de vraisemblance de l’échantillon X pour H, est égale à 
Il LA ” Il pi II P' p.— D) Vis V., — D V;. 
2) i j : . 


Des résultats du $ 16 (comparer avec (16.1)) 1l découle que l’estimateur du 
maximum de vraisemblance &° pour une telle fonction est 


D;. —_ v../n, b:; = v.;/n. 


Le test du x? est donc ici de la forme 


ZX) = Dr Gy= nbr BY | 1Y Eye ir) hp 
np; b:; =“ Vi.b. € 
4, J 


où h, est le quantile d’ordre 1 — € de la distribution du x? à st — 1 — (s + 
+ 1 — 2) = (s — 1}({ — 1) degrés de liberté. 


Tableau 2 


On pourrait citer une foule de problèmes d’application faisant interve- 
nir le test des caractères contingents construit ci-dessus. Considérons à titre 
d'illustration un problème de sondage sociologique portant sur le lien entre 
le budget d’une famille et le nombre d’enfants de cette famille (cf. [19]). 
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EXEMPLE 2A. Supposons que le caractère À désigne le nombre 
d’enfants et prend les valeurs 0, 1, 2, 3, > 4. Le caractère B indique l’une 
des fourchettes (0 — 1), (1 — 2), (2 — 3), (> 3) du budget (une unité repré- 
sente 1000 couronnes suédoises). Les résultats d’un sondage portant sur 

= 25 263 familles ont été rassemblés dans le tableau 2. 

Dans cet exemple, x2(X) = 568,5, quantité qui est Fee enent 
plus grande que la valeur critique À, de la distribution du x? à (5 — 1}(4 — 
— ]) = 12 degrés de liberté même pour les € assez petits. Force est donc 
d’infirmer l'hypothèse H, = {A et B sont indépendants (non contingents)). 

A noter toutefois de analyse plus fine met en évidence la très faible 
dépendance des caractères À et B. 

2. Cas général. Le test du x? de ce problème possède les mêmes défauts 
que dans les problèmes du paragraphe précédent. 

Le problème de test de l’hypothèse { X € P,} que la loi de X appartient à 
une famille paramétrique {P,},., admet bien sûr une approche plus large 
identique à celle qui a été exposée au $ 12. Définissons une distance 
d(P, Q) sur l’espace des distributions. Trouvons ensuite le point P,. de {P,) 
le plus proche de P, pour la distance d. Pour P,. on peut prendre égale- 
ment P;. où 4 * est un estimateur du maximum de vraisemblance (cf. $ 2.5) 
ou un autre estimateur raisonnable. La distance d(P,., P; ) sera petite ou 
grande selon que l’hypothèse H, ou l’hypothèse H, sera vraie. Ceci 
nous suggère la recette suivante du test : l'hypothèse FH, est rejetée si 
d(P,.,P;)> cet acceptée dans le cas contraire. 

Le nombre c doit être choisi tel que 


sup P,(dP,.,P*)>c)<e 


ou tel que cette relation soit réalisée asymptotiquement. Le corollaire 1 
nous suggère de prendre pour distance d(P,., P*) les statistiques de (2) et 
(3). statistiques qui, entre autres, présentent encore l'avantage d’être 
asymptotiquement non paramétriques : la distribution limite du x2(X) par 
exemple ne dépend pas de 8 pour l’hypothèse H, = [X € P,). 


Voyons comment l’approche générale développée ci-dessus se réalise dans deux cas parti- 
culiers importants où les familles paramétriques dépendent des paramètres de translation et 
d'échelle. 

1) Soit à tester l'hypothèse X € P,,0eR,oùP,(4) = P(A — 8), 4 C R. Désignons par 
F(x) la fonction de répartition de P et posons F,(x) = F(x — 8). Pour d nous prendrons la 
distance utilisée dans le test de Kolmogorov. 


THÉORÈME 1. Supposons que X € P,,F,(x) = F(x — 8) et que la fonction F(x) admet 
une densité de probabilité bornée uniformément continue f(x) = F'{x), | x?f(x)dx < ©. Si 
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l’on désigne | xfGx)dx = a,0° = x — a, on a pour tout 6 
lim P,(sup VniF® (x) — F,. (x) > c) = 
fn x 


= P(sup | w°(F&) + fu) [wap] > c), 
où w° est un pont brownien. 


Le second membre de cette relation est indépendant de 8. En le calculant pour F donnée et 
en choisissant c = c, de telle sorte qu’il soit égal à e, on obtient le test 


D, = supvnlF"(x)-Fx-8°) >c 


de niveau asymptotique 1 — €, relatif à l'hypothèse A, que la loi de X appartient à la famille 
paramétrique {P,], où 8 est un paramètre de translation. 
DÉMONSTRATION du théorème 1. Considérons le processus 


W (x) = Vn(F (x) — Ft) = w,(x) = VA (FX) = F,(), 


où w,(x) = Vn(F* (x) — F,(x)). Pour t — 8, on a 
F,(x) — F,(x) = —(t — 8X f(x — 0) + e(1,8,x)), 
le(r,8,x)1 & w,_ 1; 


où w,, le module de continuité de f, est indépendant de x, w, — 0 pour À — 0. Puisque 
0° - 8, en admettant que : = 0° et en posant, sans nuire à la généralité, a = O, on obtient 
e 


VA (Fox) — F9) = — fx — 6) [di Vn (F5) — F,Q)) + €0°.0, x) = 
= -f(x- 06) | rdw, () + €(8°,0,x), 


l4(0°,8,x)1 < w(8° — 0) m Vn19" — Blu y > 0. 
(J 


Pour tout N > 0, la fonctionnelle 


N 
0) f&-08) | »,(Od'| 


_N 


HA Ov,) = sup 


est continue pour une métrique uniforme. Cette propriété est préservée par le changement de x 
enF, l(y) = 0 + F7! (y) qui est nécessaire à l’application du théorème 1.6.3. En vertu de ce 
dernier on a 


N 
H,,(w,) = sup | w°(F(x — 8)) + f(x — 8) ( w(F(t — opt x 


—N 


Pour établir la relation annoncée 


D, = sup lw°(F(x — 6)) + f(x — 6) [ w°(FG — 6)! 
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(la 8-translation ne modifie pas la valeur du second membre), il nous reste, en vertu des rela- 
tions 


ID, — H,tw,) <u@° -0)+c [| w,(dr, (4) 
UN 
9" — 8) > 0. 


à nous assurer que l'intégrale de (4) et l'intégrale w°(F(t))dt (pour simplifier nous 
IM>N 

posons # = 0) convergent en probabilité vers 0 lorsque ñn — œ et N — ©. La meilleure façon 

d'estimer ces deux intégrales est, de toute évidence, de prouver que leurs variances sont petites 

et d’utiliser l'inégalité de Tchébychev. Vu que les moments du premier et du deuxième ordre 

des intégrants de ces deux intégrales se comportent de la même façon, nous pouvons nous con- 

tenter d'estimer l’une d'elles, par exemple 


=N 
Â w(F(t))dt. 


La relation Ew°(s)w°(u) = min (s,u) + su < 2 min (s,u) pours < l'etu < 1 nous 
donne 


=N 2 -N =N 
e( Î “tra ) £ 2 | | min (F(t), F(s))dtds = 


-N =N 
= 4 ( (—1 - N)F(t)dt < —8 | tF(t)dt — 0 


lorsque N — ©, puisque { r?dF(t) < ©. Les autres intégrales se traitent de façon 
analoguc. <« 

2) Soit à tester maintenant l’hypothèse X € P,0€R,0 > 0, où P,(4) = 
= P(418), 4 C R. Désignons encore par F la fonction de répartition de P et posons 


THÉORÈME 2. Supposons que X € P,,F,(x) = F(x/8) et qu'il existe une densité continue 
bornée f(x) = F'(x) telle que 


sup Ixf(x)l < ©, {xt < ®. (5) 


Alors pour tout 8 


lim P(sup VniF" (x) — F(x/8°)l > c) = 


n—œ 


= P (sup lw°cF(x)) + xf (x) | rw°(FU))dt | > c). 
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DÉMONSTRATION. Elle reprend ad litteram celle du théorème 1. On a 
W (x) = Vn(F? (x) — F(x/8°)) = w,(x) — Vn(F(x/8°) — F(x/8)), 
w,(x) = Vn(F° (x) — F(x/0)). 


X X X 
F,(x) — F,(x) = Ê F)(G)+nn), 
! 0 8 


où, en vertu de la relation f (x) < c/lxl et de la continuité uniforme de j, on a sur tout inter- 
valle fini sup le(s, 8, x)l < w,,_,, — 0. En admettant que r = 9° F, 8, on obtient 
x 


Fe (2) : F( ) G-:yC)- . 1 }0°.8.. 


où sup du second terme converge en P,-probabilite vers 0. Reste à appliquer les raisonnements 
x 


Pour ! — 8, 


du théorème précédent (la petitesse des intégrales | dv%FG))dt et | 10,()dt est 
UHI>N IU>N 

assurée par la condition (5)) et à remarquer que la partie principale de W, (x) est égale à (on 

convient sans nuire à la généralité que 0? = !) 


w,, (x) — TA = w,(x) - _J@70) { t'dw, (1) = 
86° (@ + 8°) 86° @+0°) 
2x x / 
= w,(x) __ [mar 
00° (6 + 9°) 


où 8° (8 + 8°) — 22. Donc, 
Pe 


OO 
OO 


Ce qui prouve le théorème 2, puisque la contraction effectuée sur x sous le signe sup est sans 
effet. 

Le lecteur peut établir des résultats identiques pour les statistiques Î (FF (x) — 
— F,.(x)/dF,.(x). 


sup | W, (x)l = sup 
X x 


= sup 
zx 


$ 18. Stabilité des décisions statistiques 


Dans les problèmes d'estimation ou de test d’hypothèses envisagés dans 
les paragraphes précédents, nous avons pose à chaque fois un certain nom- 
bre de conditioris en construisant des procédures statistiques. Ces condi- 
tions portaient en particulier sur l’indépendance des observations et sur 
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leur équidistribution, ainsi que sur le caractère de la distribution P des élé- 
ments de l’échantillon. La non-réalisation de ces conditions aurait mis en 
défaut les conclusions respectives (relatives par exemple au caractère de la 
distribution limite ou à l’optimalité de telle ou telle statistique). 

D'autre part, les conditions discutées en pratique sont en règle générale 
le résultat d’une approximation et d’une inévitable idéalisation. Donc, ces 
conditions ne sont pas remplies exactement, d’où la crainte que les recom- 
mandations prodiguées à l’aide de telle ou telle procédure statistique ne 
soient pas fondees. 

Par conséquent, comme dans tout domaine des mathématiques lié aux 
applications, il est nécessaire, avant la mise en œuvre de ces méthodes, de 
fixer la marge des écarts par rapport aux hypothèses admises pour remettre 
éventuellement en cause les résultats obtenus. 

Du point de vue mathématique, ce problème est très voisin du problème 
de stabilité *). 

Les écarts les plus courants par rapport aux conditions mentionnées 
sont de la nature suivante. 

1) La série d’observations X contient un faible pourcentage de valeurs 
aberrantes, c’est-à-dire des observations entachées de grossières erreurs de 
mesure ou d’enregistrement, ou engendrées par un autre mécanisme 
« perturbateur » différent du système étudié. Comme il est pratiquement 
impossible de différencier ces observations des autres, on cherche des pro- 
cédures peu sensibles à ces « pollutions ». 

2) La distribution de x; n’est égale à P qu’approximativement. 

3) Les éléments de X ne sont pas indépendants, mais faiblement dépen- 
dants. 

Le problème consiste à construire, pour les principaux problèmes de 
statistique, des décisions qui soient par leur efficacité proches des décisions 
optimales et qui dans le même temps soient insensibles aux écarts par rap- 
port aux hypothèses admises ou, à la rigueur, par rapport à celles qui sont 
essentielles pour nous. Ce problème qui est très compliqué et pas toujours 
exactement posé ne peut être considéré comme étudié à fond. Les résultats 
obtenus étant encore éparses, on ne s’arrêtera que sur quelques exemples 
typiques. 

1. Estimation de la moyenne pour des distributions symétriques. Soit 
X € P, où P, distribution sur une droite, admet la densité f({ — œ) par 
rapport à la mesure de Lebesgue, f (1) = f(—1t). Nous étudions les deux 
estimateurs suivants du paramètre œ = Ex, : l’estimateur 


@œ = X 


+) On se sert aussi du terme de « robustesse ». 
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et l’estimateur &°* basé sur les quantiles empiriques : 


r—1 

. — 1 . 

as Ù 5, (1) 
k=)1 


où0<p< 1i,r = 1/p étant un entier. Pour p = 1/2, l’estimateur «°° se 
transforme en la médiane empirique &® = ÿ}». 
Bornons-nous pour l’instant au cas p = 1/2. Pour ñ — œ,ona 


(œ* — a)Vn & æ., 2° oi = Î t2f(t)dt. (2) 


Par ailleurs, dans le corollaire 2.2.1 on a vu que pour 7 — 


] 


(«°° — œ)Vn & æ, 02° 05 = PET) ; (3) 


En reprenant la démonstration de ce corollaire, on établit aisément que 
le terme X4, de l’échantillon ordonné associé à X aura, pour toute valeur 
fixe de la différence & — &,, la même distribution limite que x°° = £° = 
= X{&0)» Ko = [(n + 1)/2]. 

On en déduit que l’estimateur œ°° = f* est insensible (du point de vue 
de ses propriétés asymptotiques) à l’adjonction à l’échantillon X d’un nom- 
bre fini quelconque d’éléments aberrants. En effet, si l’échantillon X con- 
tient / éléments aberrants, l’estimation æ°* sera située entre les valeurs yw D 
et Yes OÙK, = ko —-l,k,=k;+l,ety,,,k = 1,...,n — 1,est l’échantil- 
lon ordonné associé à un échantillon Y € P de taille 7 — /. Mais les pro- 
priétés asymptotiques de y«,) et Yw, Sont identiques et sont confondues 
avec celles de la médiane empirique. 

Donc, l’estimateur «°° est insensible aux aberrations quelles qu’elles 
soient. On ne peut en dire autant de l’estimateur «° = x, où la contribu- 
tion des aberrations est importante (par exemple si leur nombre / est de 
l’ordre de ñn). Il est aisé de comprendre que °° reste stable si le nombre / 
d’éléments aberrants n’est pas élevé en regard de nr. Il le reste encore si l’on 
remplace {* par une statistique (1) de forme plus générale. 

D'autre part, dans le cas particulier important où P = P. 02° la valeur 


03 = o?x/2 (f(0) = (o,V2x)" !) est de x/2 fois plus grande que la variance 
of de l’estimateur efficace æ* = x. La différence entre les efficacités de «°° 
et «° peut être réduite davantage si les estimateurs (1) sont envisagés pour 
r = 3,4, etc. Nous obtenons alors un estimateur «°° presque aussi efficace 
que x (en l’absence d’aberrations), qui en même temps sera stable par rap- 
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port aux aberrations. Outre (1) on peut prendre la moyenne tronquée 


n-np 


…— 


kK=np+] 


dont la variance se rapprochera pour les petits p de la variance 0° de l’esti- 
mateur @°. 

Signalons par ailleurs que les propriétés de l’estimateur «* = x dépen- 
dent peu des variations de P n’affectant pas la variance o? = Î t2f(t)dt, et 


notamment des variations locales de f (t) en { = 0. En ce sens il est stable. 
Mais /a propriété d'optimalité de cet estimateur qui a lieu pour P = #_ ; 

es 
est instable. En effet, supposons que pour € > 0 petit, 


Alors f (0) = (1 — e)/V2x + 1/2 > 1/2 et comme le montrent les relations 
(2) et (3), l’estimateur a°° = £* sera sensiblement meilleur (e doit être petit 
mais pas inférieur à 1/Vn). 

D'autre part, l’estimateur æ°* = {° (plus exactement sa distribution) 
est stable par rapport aux variations de P n’affectant pas la valeur f (0). 

Ces remarques peuvent être reformulées sans peine pour les tests, par 
exemple pour les tests sans biais uniformément les plus puissants 1x — 
— pl > c de l'hypothèse H, = {a = «,] contre H, = {læœ — al > d > 0] 
au vu d’un échantillon X € #, ;. 

2. Statistiques r et Si. Considérons maintenant le problème de la stabi- 
lité des procédures statistiques (estimation et test d’hypothèses) faisant 
intervenir les statistiques 


( — a)vn 1% = 
f= ——, Si = (x; — x)°. 
- 


a—t,a+ce” 


On sait que ces statistiques (cf. $$ 3.7, 3.8) sont à la base de tests opti- 
maux de choix entre hypothèses relatives à la moyenne « et à la variance 0? 
de populations normales dans le cas où le second paramètre (2? ou æ) de la 
distribution P, 2 est inconnu. 

Les statistiques f et S£ se conduisent de manière différente face aux vio- 
lations de la condition X € .. ,2- SUPpOSONs que n est grand et que X € 
€ P, où P est une distribution quelconque de moyenne « et de variance 
finie. La distribution de f se laisse approcher, comme pour le cas où X € 


E ®, 2, par la loi normale réduite #, ,. Ceci résulte des théorèmes de con- 
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tinuité ($ 1.5) et du fait que 


Ce qui vient d’être dit exprime que le niveau du test de Student sera peu 
différent du niveau donné pour les grands 7, même si la distribution P de 
l’échantillon X s'éloigne considérablement de la distribution normale. 

On ne peut en dire autant des tests construits à l’aide de la statistique 
Sé. Cette circonstance est liée au fait que la distribution limite de S£ dépend 
de la valeur Ex*. En effet, des considérations du chapitre 1, il résulte que 


(SÈ — o?)Vn € So: d? = Ex? — 02}? = Vx!. 


Donc, le niveau du test construit à l’aide de la statistique S£ pour une popu- 
lation normale peut différer considérablement du niveau donné si X € P et 
P +. (ces niveaux seront égaux si les moments d'ordre 4 de P et de 


#2 sont confondus). 


Les statistiques f et S£ sont sensibles au refus de l’hypothèse d’indépen- 
dance des observations de l’échantillon X. Si par exemple les observations 
sont corrélées et que le coefficient de corrélation soit égal à o, en convenant 
sans nuire à la généralité que & = 0, on obtient 


2 ] - 2 —\ 2 ] Ci = 2 
es El nm] rte x) ]- 
is! im]! 


= - = [no — o?(1 — p) — no*p] = o°(1 — p). 


Donc, même la propriété d’absence de biais de S£ est violée, bien que 
l’écart ne soit pas élevé pour les petits o. La détermination des distributions 
def et de Sy lorsque les observations sont dépendantes est un problème très 
compliqué. 

3. Test du rapport de vraisemblance. Ce test est en principe très sensible 
à la présence des aberrations et même aux petits écarts par rapport aux 
hypothèses relatives à la distribution de X. Supposons par exemple que 
l’on teste les deux hypothèses simples H, = (Xe #, Jet H,={(XE 
€ U_,,). Il est évident que si l’on se sert d’un test le plus puissant de 
Neyman-Pearson, l’apparition d’au moins une observation x à l’extérieur 
de l’intervalle [— 1, 1], les autres observations étant idéalement distribuées 
suivant la loi uniforme U_, ,, nous contraindra (avec un risque nul !) 
d’accepter l’hypothèse H,. Ceci exprime que la présence d’au moins une 
aberration ou l’apparition d’écarts, même petits, par rapport à la distribu- 
tion U_,', peuvent nous obliger à prendre une fausse décision. 
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De ce point de vue, le test de Kolmogorov par exemple est bien plus sta- 
ble (quoique moins puissant pour H,). D’une façon générale, les tests non 
paramétriques sont, comme il faut s’y attendre, bien plus stables que les 
tests « individuels » optimaux dans tel ou tel problème concret. 

S’agissant du problème de décision entre l’hypothèse H, que X est nor- 
mal et l’hypothèse 4, qu’il est uniforme, on peut chercher des tests puis- 
sants et à la fois stables pour les aberrations en se servant comme précé- 
demment du rapport de vraisemblance, mais pour des échantillons 
« tronqués » (comparer avec (4)). On peut aussi essayer de trouver un autre 
test. Le choix est riche et souvent il est guidé non seulement par des consi- 
dérations de stabilité mais aussi par la commodité des calculs. 
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CHAPITRE 4 


. PROBLÈMES DE STATISTIQUE 
À DEUX ÉCHANTILLONS ET PLUS 


$$ 1, 2 : problèmes d’homogénéité de deux échantillons. 
$ 3 : problèmes de régression. 

$ 4 : principaux résultats de l’analyse de variance. 

$ 5 : problèmes d'analyse discriminante. 


$ 1. Tests d’hypothèses d’homogeénéité 
(totale ou partielle) dans le cas paramétrique 


1. Classe de problèmes envisagée. Dans les chapitres précédents, nous 
avons étudié essentiellement un échantillon X de taille n distribué suivant 
une loi P totalement ou partiellement inconnue. Nous passons maintenant 
aux problèmes faisant intervenir deux ou plus de deux échantillons. 

L’une des classes essentielles de problèmes traités sera celle des problé- 
mes de test d’homogénéité (totale ou partielle) de deux échantillons. 

Font partie de cette classe les trois types de problèmes suivants : 

1. Test d’'homogénéité « ordinaire ». Le problème consiste ici à éprou- 
ver l’hypothèse que deux échantillons X et Y sont distribués suivant la 
même loi inconnue. Ces problèmes se présentent par exemple lors de la 
comparaison de deux méthodes de traitement dans un processus technolo- 
gique ou en agriculture. La comparaison est effectuée généralement par le 
biais de caractéristiques numériques du produit final (de l’échantillon) qui 
sont aléatoires. On est confronté à de tels problèmes lorsqu’on teste l’effet 
d’un nouveau remède en comparant le groupe d’expérience des patients au 
groupe témoin. 

L’exemple 3 de l’Introduction est un problème d’homogéneéité. 

On étudiera le cas paramétrique dans ce paragraphe. Soient donnés une 
famille paramétrique de distributions {P,},., et deux échantillons indépen- 
dants À = (x,,..., x, )et Ÿ = (y,, .…, y,,) de tailles respectives 7, et n, 
dont on sait a priori qu’ils sont distribués suivant une loi de la famille {P,} : 


XEP,, YEP,, (1) 
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pour certains 9, et 8,. Le problème d’homogénéité ordinaire consiste à 
choisir entre l’hypothèse H, = {9, = 8.} et son alternative H, = {0, # 0;). 
Il est évident que les hypothèses H, et H, sont toutes deux multiples. 

II. Test d’homogénéité en présence d’un paramètre fantôme. On admet 
que dim 8 > 1. Représentons le vecteur 8 sous la forme 8 = (u,v), où uetv 
sont des « sous-vecteurs » et désignons par u; et v; les coordonnées du vec- 
teur ô; dans (1),/7 = 1,2. 

Supposons que l’on sache que le « sous-paramètre » inconnu v est le 
même pour les deux échantillons : vu, = v, = v. On demande de choisir 
entre l’hypothèse H, = {u, = u,] et son alternative H, = [u, # u,}. 

Ceci est le problème d’homogénéité en présence d’un paramètre fan- 
tôme v. Il se distingue du problème d’homogénéité ordinaire par le fait que 
l'hypothèse contraire de H, = {8, = 8,] est de la forme H, = f[u, + 
uv, = v). 

Les problèmes de cette nature se présentent par exemple dans la situa- 
tion suivante. Supposons que l’on s'intéresse à l’état d’un objet caractérise 
par un vecteur a qui n’est pas mesurable directement mais seulement en 
présence d’un bruit aléatoire. La nature de ce bruit ne change pas d’une 
observation à l’autre. Il faut tester l’hypothèse que a est invariant dans 
deux séries d’observations X et r. 

Si par exemple les mesures effectuées sont de la forme x, = a, + £;, où 
E;, € #, ,2 caractérisent le bruit, et les observations y; sont de même nature 
lorsqu'on remplace a, par a,, on peut écrire X € ®, ,1,2, Ÿ € ®,, 102: 
Nous sommes amenés à considérer le problème de test de l’égalité des 
moyennes {œ, = æ,} de deux lois normales &, et, 2: ayant la même 


a] .0® 
variance inconnue 0°. 


III. Test d’homogénéité partielle. On teste l'hypothèse H, d’une 
coïncidence « partielle » de 8, et 8,. Plus exactement, on éprouve l’hypo- 
thèse H, = {u, = u,) (les notations sont celles du n° IT) contre H, = [u, # 
+ u,). Les valeurs v, et v, peuvent être différentes pour X et Y. 

Supposons par exemple que l’on teste en laboratoire le résultat de 
l'effet d’une nouvelle méthode de traitement sur la productivité d’une 
céréale. Les observations portent sur le poids total des grains des épis. Sup- 
posons que x; € #,, ,,2,i = 1,..., n, pour le lot expérimental et y; € &, 2 
pour le lot de contrôle. Il est naturel d'admettre que la « dispersion » o? 
varie avec le procédé de traitement. Mais ce qui est essentiel pour nous, 
c’est de savoir si a varié le principal indice « de productivité. Nous sommes 
ainsi conduits au problème de décision entre les hypothèses H, = {a, = a.) 
et H, = {æ, # «,]) pour des lois normales dont les variances peuvent être 
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différentes. Ce problème est bien connu sous le nom de problème de 
Berens-Fisher *). 

Dans ce paragraphe, nous ramènerons les trois types de problèmes pour 
des familles paramétriques quelconques au problème, étudié au $ 3.15, 
d’appartenance de la loi d’un échantillon à une sous-famille paramétrique 
et trouverons la forme des tests asymptotiquement minimax sous la condi- 
tion que les hypothèses testées soient proches. Ce seront des tests du rap- 
port de vraisemblance qui, pour les lois normales, seront confondus avec 
ceux que (s’ils existent) nous avons construits en cherchant les diverses pro- 
priétés d’optimalité exacte (comparer avec [S0]). 

Le test x de choix entre FH, et H, sera ici une fonction x = x (#, Y) de 
deux échantillons X et Y qui, comme dans le chapitre 3, désignera la pro- 
babilité d'accepter H, pour la réunion des échantillons X et Y ou échantil- 
lon global (X, Y). Les définitions du niveau asymptotique et de l’optima- 
lité asymptotique du test x sont les mêmes que dans le & 3.14. 

DÉFINITION 1. On dira qu’un test x est de niveau asymptotique 1 — € 
(est de classe À.) si 

lim.sup sup. E LU LET 


où É,o, est l’espérance mathématique par rapport à la distribution P,, X 
x P,,, et ©, l’ensemble des valeurs (8,, 8,) pour lesquelles est réalisée 


l'hypothèse FH, (par exemple, l’ensemble de tous les points (8, , 8,) situés sur 
la « biscectrice » 0, = 0, dans le problème d’homogénéité Ordinaire). 

DÉFINITION 2. On dit qu’un test x, e À, est asypmptotiquement minimax 
dans K, entre H, et H, si pour tout autre test x e À, on a 


ni C7 inf Er Xe N = inf LUS n)> 0 


où 6, est l’ensemble des valeurs (9,, 8,) correspondant aux alternatives H... 


a — + mm 


+) La recherche de solutions optimales a fait l’objet de nombreux travaux. Y. Linnik et 
son ccole ont apporté une importante contribution à l'étude du problème de Berens-Fisher qui 
est assez compliqué. Ces recherches impliquent de nouvelles notions et l’utilisation d’un outil 
mathématique assez complexe. D'où l’impossibilité de citer et de démontrer (dans le cadre de 
cet ouvrage) les résultats acquis. La situation se présente sous de meilleurs auspices dans les 
problèmes d’homogénéité ordinaire et d’homogénéité en présence d’un paramètre fantôme 
pour des populations normales (dans de nombreux problèmes on arrive à trouver des tests 
invariants uniformément les plus puissants sans biais, mais les constructions exigées sont assez 
compliquées : pour plus de détails voir [50]). 


$1] TESTS D'HYPOTHÈSES D'HOMOGÉNEITÉ 437 


2. Test asymptotiquement minimax entre hypothèses voisines d’homo- 
généité ordinaire. Introduisons un nouveau paramètre 8 = (9,, 8.) caracté- 
risant la réunion des échantillons X et Ÿ, dite encore échantillon global 
(X, Y). La fonction de vraisemblance de l’échantillon global (X, Ÿ) est 
égal à f,(X, ÿ) = a, À) fo, (Y). 

Supposons par souci de simplicité que les échantillons sont de même 
taille :n, = n, = n. L’échantillon (4, Y) peut alors être représenté comme 
un échantillon de taille 7 formé par les couples d’observations (x,, y,), … 
…. (X,, Y,) de distribution P, = P;, X Po, et de densité 5, &) 5,0). Nous 
sommes conduits au problème, envisagé dans le $ 3.15, de test, au vu de 
l'échantillon (X, Ÿ), de l’hypothèse H, que le paramètre 8 est situé sur la 
« courbe » 8, = 8,. Si l’on adopte les notations du $ 3.15, l'hypothèse H, 


s’écrit H, = (6 = g(œ)}, où & = 0,,g(œ) = (œ, æ). Il est évident que la 
matrice G = 2: |. i = 1, ..., 24, ] = le ..., K, est de la forme 
a 
J 


Ge) où E est la matrice unité d’ordre K, de sorte que rang G = k. 


On admettra que la paramètre 8 est localisé, c’est-à-dire que les valeurs 
ÿ,et8,sont proches et par suite les valeurs éventuelles de 8 sont situées dans 
in voisinage du point 8, = (85> 89) pour un 8, fixe. Si l’on suit le $ 3.15, il 
nous sera plus commode d'introduire un nouveau paramètre T = (r,, 
r')=Q'Nn,7 ‘Nn) =y"Nn, Où 7 = 01 — 007 = 0, — 0,, de sorte 
que l’application 8 = 8 (7) est bijective : 8, =7 +0,08; =7T" +7 +0,. 
En termes de paramètres 7 et y, l'hypothèse H, d’homogénéité devient 
H, ={r" = 0) = {y" = 0}. Pour hypothèse en nous considérons 
l’hypothèse « séparée » 


={f"N"T2>b1, b>0, (2) 
où Z = 7(8,) est la matrice de Fisher pour la famille {P,] au point 6,. 


THÉORÈME 1. Supposons que la famille {P,) vérifie les conditions (RR) 
au voisinage du point 8, (cf. $ 2.28). Le test du rapport de vraisemblance 


sup Je, (0/5, 


9 
R : = Noa h,/2 3 
Eee sup (0) fo(N) un 


est alors un test asymptotiquement minimax de niveau asymptotique 1 — € 
de H, = {8, =6,]contre H? = {(@, — 0,)1@, — 0,)7 > b?/n] pour tout 
b > 0, où h, est le quantile d'ordre 1 — € de la distribution du x? à k degrés 
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de liberté (la statistique 2 1n R,(X, Ÿ) admet la même distribution limite 
pour l'hypothèse H,). 

Supposons que ê V0 Ü* sont des estimateurs du maximum de vrai- 
semblance du paramètre 0 = 0, = 8, au vu respectivement des échantillons 
X, Yet (X, Y). Le test 

(O — 0) 16°) % — 6°) + És-6)16)Ë8:- 6) >h/n (4) 


sera alors asymptotiquement équivalent au test (3). 


DÉMONSTRATION. Cette proposition est conséquence immédiate du 
théorème 3.15.4. Il nous faut seulement voir ce que sont la matrice de 
Fisher 7(8,) = 1(0,, 8) pour le paramètre global 8 = (0,, 8.) et la matrice 
M, pour la famille paramétrique {[P4 ,, ,4,) au point 8 = 0.On a 


In fs @x).fo,0) = [(x,0,) + 1(y,0;). 


Désignons par f,,i = 1, .., 2k, les coordonnées du vecteur 8. Si l’on dési- 
gne par E; l’espérance mathématique par rapport à la distribution P;, les 
éléments Z,:(8) de la matrice Z(8) seront alors égaux à 


Fa 91 (x; 81) 91(,; 82) d1(K»0,) , 81(y,, 82) 
I.(0) = E- 1 ”1 172 1» 71 127274 
"oi ( dt, dt, ) ( ot Tr, ) 


On en déduit en vertu de l’indépendance de x, et y, que 


—— I(@,) O0 
1(0) = 1 : 
® ( 0 ]J di 
Donc, le test (4) n’est autre que le test (3.15.12) du théorème 3.15.4. 
Des calculs identiques nous montrent que M, = (84), puisque pour 


B = (B;, .…. Bx) = 0 


Ol(X,, 80) ” (y; 80 + B) _ O[(y,, 00) 
dB; : 0B; ot; 


REMARQUE 1. Nous avons prouvé le théorème 1 sous l’hypothèse que 
n, = n,. Mais cette restriction n’est pas essentielle du tout. Considérons 
par exemple le cas où 7, — œ et n, — œ de telle sorte que le rapport n,/n; 
soit égal au rationnel r,/r, (r, et r, sont des entiers quelconques fixes, 7; = 
= nr;,, n — œ). Introduisons encore le paramètre 8 = (,, 8.) et traitons 
l’échantillon global (X, Y) comme un échantillon de taille #7 d’éléments 
CG, x, 5 Yiocess Ye) O6 is es X2e 5 Ye +io ce Ya) ++ dOnt la loi 


Po = Ps XX Po, X Po, X -.. X Po, 


, = 1,...,K. « 


r; fois r} fois 
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dépend du paramètre 8. La fonction de vraisemblance sera encore de la 
forme 


SX) = fo 9 fo, (M. 


Si l’on introduit comme précédemment le paramètre 7 = (7°,7°") = (8, — 
— 8,5, — 8,) et que l’on pose r = y/Vn = (y'Vn,7""/Vn), le problème 
posé consiste à tester l’hypothèse H, = {y = 0] contre l’hypothèse H? = 
= {y"M;y°T > b?}, où M, est la matrice de Fisher pour P4 9 +8) au 
point B = 0. Il est aisé de voir que dans notre cas M, = r,1(6,), de sorte 
que l’ensemble des alternatives conserve sa forme (2) : 


HÈ = {y T > b?/r!]. 


La matrice de Fisher /(0) devient 


ER 0 ) 
(4 r1@;) 


Reste à appliquer le théorème 3.15.4. Nous obtenons alors la proposition 
du théorème 1 dans laquelle il faut remplacer le test (4) par 


n (x — 0°) 1(6*)6% — 0%) + n,0$ — 0*)1O)Ë;- 8") > h. (5) 


Le théorème 3.15.4 nous permet de déterminer aussi la puissance 
asymptotique garantie des tests (3), (4) et (S). 

Ce théorème reste valable dans le cas général où n, — œ,n, — ©, 
n,/n, — ©, où c est un nombre arbitraire de ]0, 1[. Mais la démonstration 
de ce fait implique des considérations supplémentaires. 

REMARQUE 2. Le théorème 1 reste en vigueur si l’on remplace l’hypo- 
thèse H, = {0, = 8) par 


H3={@,-6,)16, -08)<a?/n}, 0<a< b. 


REMARQUE 3. La forme des tests asymptotiquement minimax du théo- 
rème 1 ne dépend pas de 0,. La valeur 0, ne figure dans la définition de 
l'hypothèse H? que par l’intermédiaire de 7 = (8,4) (cf. (2)). On aurait pu 
éviter l’apparition de 8, en remplaçant Z par 7((@, + 8,)/2) dans (2). Ceci 
nous aurait fourni une hypothèse H? « asymptotiquement équivalente » à 
H? pour laquelle le théorème 3 reste entièrement en vigueur. L'apparition 
de 6, dans (2) est la conséquence de l’utilisation d’une méthode plus simple 
de réduction du problème envisagé aux résultats du $ 3.15. 

EXEMPLE 1. Supposons que X et Y sont des échantillons de taille 7, et 
n, distribués respectivement suivant les lois polynomiales B, et B, ,6;€ R', 


0, = (6,,,...,0,),i = 1,2. Les vecteurs » = (v,, ...,»,)etu = (u,,.….,u,) 
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des fréquences d’apparitions des événements 4 ,, .…, 4, (cf. $ 2.2) forment 
les statistiques exhaustives 


k k 
f A = IL ME II 6À 
ie] im] 


Les estimateurs du maximum de vraisemblance sont de la forme * = 
= v/n,,0% = p/n,,0% = (v + u)}/(n, + n). La matrice 7(8) a été définie 
dans (3.16.5), de sorte que (cf. (3.16.9)) 


« 2 
tLE)tT = . _ 
Où 
im] 


Ainsi, en vertu du théorème 1 et de la remarque 1, le test asymptotique- 
ment minimax de niveau asymptotique 1 — e de H, = {0, = 8,) contre 


k 
Hè = { S Gi - 02) /0 > bt/n;) 
is] 
est de la forme 


In R,(X, Y) = 


k 


k 
CE . + Lu. h 
LE n; n, + 2 


ii is] 


où h, est le quantile d’ordre 1 — € de la distribution du x? à £ — 1 degrés de 
liberté. D’après (4) et (5), le test 


k 
2 
y. PV. + LL, n +n 
m es î 2} 1 2 + 
ñ; nt v,+u, 


lui sera asymptotiquement équivalent. 
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EXEMPLE 1A. Dans l’exemple 2.26.3 nous avons décrit le mécanisme de 
transmission des groupes sanguins 0, À, B, AB. Ce mécanisme est com- 
mandé par les gènes A, B et 0. Désignons respectivement par p, getr = 
= |] — p — q les probabilités d'apparition de ces gènes dans une popula- 
tion donnée. Les probabilités p,(œ), « = (p, qg), qu’un individu soit du 
groupe i s’expriment en fonction de & à l’aide des formules du tableau 1 du 
$ 2.26. 

On dispose de deux échantillons X et Y de fréquences respectives ». et u; 
d’apparition du groupe i = 1, ..…, 4, obtenus par un sondage effectué sur 
n, = 353 personnes de la communauté I et 7, = 364 personnes de la com- 
munauté II. Les résultats sont consignes dans le tableau 1. 

Tableau 1 


communauté 


Il faut tester l’hypothèse que les communautés sondées appartiennent à 
une même population, c’est-à-dire l’hypothèse que les probabilités p et q 
sont égales pour ces groupes, ou ce qui est équivalent que les p;(œ) sont éga- 
les. On reconnaît de toute évidence le problème d’homogénéité étudié dans 
l’exemple 1. 

Si l’on teste la coïncidence des probabilités des quatre groupes san- 
guins, la distribution limite de la statistique (cf. (6)) 


d 
2 
à = ee) nn; 
xt = Ÿ ni) Dar uen 
nñ, ñn; +, 
is] 


sera la distribution du x? à trois degrés de liberté. Dans notre cas, x? = 
= ]1,74. Le niveau réel (cf. $ 3.4) de l’écart obtenu est supérieur à 0,99. 
Ceci exprime que l’hypothèse d’homogenéité doit être infirmée par le test 
XŸ > ho, de niveau 0,99. 

A noter que le test utilisé ne correspond pas entièrement à la nature de 
l'événement étudié, puisque nous devons éprouver la coïncidence des pro- 
babilités p et g et pas des probabilités p, d'apparition des groupes sanguins. 
Si l’on suit exactement le théorème 1, on doit calculer, à l’aide des métho- 
des du $ 2.26, les estimateurs du maximum de vraisemblance a, æ} et æ* 
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du paramètre &œ = (p, qg) au vu respectivement des échantillons X, Ÿ et 
(X, Y) et utiliser la statistique 


x? = 21L(a%, À) + L(aÿ, Y) — L(a*, (X, Y))] = 


4 4 4 

= 2| Y », In p,(a*) + Y z;inp;(ai) — D G;+u) in p,(&)] 
im] im! i=1 

qui, pour les grands n, est distribuée suivant une loi proche de celle du x? à 

deux degrés de liberté. Si l’on effectue les calculs nécessaires (cf. exemple 

2.26.3), on obtient xi = 11,04, ce qui, pour deux degrés de liberté, donne 

un écart plus significatif que 11,74 pour trois. 

Le test de l'hypothèse que X et Y sont distribués suivant des lois appar- 
tenant aux sous-familles paramétriques BQ) Où pa) = (pi), … 
.…, D4(@)), est étudié dans l’exemple 3.17.1. Les deux échantillons s’accor- 
dent bien avec cette hypothèse. 

EXEMPLE 2. Soient X € ®, .}, Ÿ € &,..,2, Où les points 0; = (&;, 0/) 


sont situés au voisinage du point 8, = (&,, ag). On a 


=? 
IG) = Co 0 
0 3%" 


(cf. $ 2.16) et l’on envisagera le problème de choix entre l’hypothèse H, = 


HÈ = (ir he Ge 


n=n, +n.,. 
4 7 } 1 2 
Oj 205 ñ, 


ñ; 


Ona 6% = 525 = V G — HP, JO = Grey 
1 
im] 


L’échantillon Y est justiciable des mêmes formules. Par ailleurs, 


ñ} n2 
(5 X;+ Ÿ y; 
+ = (2,52 y), z = —— M 

( Sx,r) nr, +n 


ñ ñn> (7) 


= ax + (1 — a)y, 


= aS% + (1 — a) S? + (1 — a)a(x — y}, 
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1 
— = (An, +732) 
oùa=n;,/(n, +n), fs. (A) fs, (NY) = (2reS$ y) De . Donc le test 


_ SEy > eh. UT +) 


S? St ]—a) 


où À, est le quantile d’ordre 1 — € de la distribution du x? à deux degrés de 
liberté, est un test asymptotiquement minimax entre H, et H?. Nous propo- 
sons au lecteur de trouver à titre d’exercice un test asymptotiquement équi- 
valent de la forme (5). 

3. Tests asymptotiquement minimax pour le problème d’homogeneéité 
en présence d’un paramètre fantôme. Dans ce numéro et les suivants, on 
admettra pour simplifier que les échantillons X et Y sont de même taille : 
n, = ñ,. Cette restriction n’est pas essentielle. Si n,/n, = r,/r, (r,etr, 
étant des entiers), le lecteur pourra procéder comme dans la remarque 1 
suivant le théorème 1. 

Soient donc donnés deux échantillons X € Ps, et Y E Po,» 0: = (u., v:), 

= 1,2, detaillen, = n, = n. On teste l'hypothèse fu, = w,} contre {u, # 
+ u,] sous la condition que v, = v, = v et v est inconnu. Désignons la 
dimension de u; par {,[ < k. 

Introduisons un nouveau paramètre 8 = (u,, u,, v). Représentons 
l'échantillon global (X, Y) comme un échantillon de taille 7 d’éléments 
(x, Y1), .…, (X,, Y,) dont la densité de probabilité est égale à f,(x, y) = 

Jo. @) Ju, y0). Pour cette famille paramétrique, le problème envisagé 
est équivalent au problème de test de l’hypothèse H, que la valeur 8 est 


située sur la « courbe » 8 = 8(8,) = (u,,u,, v). La matrice G = |[£- , 
U 
i=1,..,k +1, j = 1,...,Kk, est de la forme Eu © )r où £, est la matrice 
k 


unité d'ordre / et E, la matrice unité d’ordre k, de sorte que rang G = K. 

Comme dans le numéro précédent nous conviendrons que le paramètre 
8 est localisé au voisinage du point 8, = (4,, v,). Introduisons le paramètre 
Tr = 70) =(r,7",7") = (u, -uç,u, — u,,v — vo). La contre-image 
0 = 8(r) existe toujours et possède les coordonnées u, = 7° + Uos U3 = 
=TUHT +UQU=T + vo. Posons 7 = y/Vn,7 = (y',7",7 "). 

Pour le nouveau paramètre 7 (ou y) l’hypothèse d’homogénéité s’écrit 
H, = {y = 0}. Pour hypothèse alternative, considérons l’hypothèse 
« séparée » H? = {y"’1,(6.)7""! > b?]}, où Z,(8) est la matrice formée par 
les / premières lignes et colonnes de la matrice initiale d’information de 
Fisher 7(6). 


THÉORÈME 2. Supposons que la famille {P,] remplit les conditions (RR) 
au voisinage du point 6,. Le test du rapport de vraisemblance 
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R.(X (ue u) UP Ju. L CO. » (9 h,/2 (8) 
= se" 
Re sup f, (A) fs (M) . 


est alors un test asymptotiquement minimax de niveau asymptotique 1 — € 
de H, = {u, = u,) contre 


HÈ={(&@,-u,)1,60)u, — u,)7 > b?/n) (9) 


pour tout b > 0 v, =v, = uv. Îcih, est le quantile d'ordre 1 — € de la dis- 
tribution du x? à | degrés de liberté. (Cette distribution sera distribution 
limite de la statistique 2 \n R,(X, Y) pour l'hypothèse H;.) 

Désignons par 8* et 8* = &*., * v*) les valeurs des paramètres 8 et 8 pour 
lesquelles est réalisé le maximum respectivement du numérateur et du déno- 
minateur de (8). Mettons la matrice I(8) sous la forme 


1,6) 1,6) 
1@)= ( 1°" À. 
” Pr on 


Le test 
(0% — (u*,u*,u*))1(0%)(8% — (u*,u*,v*))] > h,/n, (10) 
où 
1,6) 0 L,@,) 
(8) = 0  /,(6.) L,@:) ) (11) 
1:2@6,) 1,,@;) 1,:@,) + 1:,@:) 


sera alors asymptotiquement équivalent à (8). 

DÉMONSTRATION. Ce théorème est conséquence directe du théorème 
3.15.4. 11 nous faut seulement déterminer la structure de la matrice /(8) 
pour l'échantillon (X, Y) et le paramètre « global » 8, et celle de la matrice 
M,. On a 


le nf, y) = 1, @&,,v)) + /6, &, vu). 
Désignons par f,,i = 1, .,k + /, les coordonnées du vecteur 8. Alors 


ol (x, (u,, v)) 


| O<i< I, 
ET: 
_91_ _) 910, WU, v)) l<i<2 
ET) ôt nn 
AG, Go) | AO Ga) pe icks 
ETS t. 


d’où l’on déduit (11) sans peine. 
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La matrice M, pour la famille paramétrique P,65.0 = Po uo+8.0) 5€ 
calcule de façon analogue au point B = 0, est égale à 7,(8,) et correspond à 
la sous-matrice moyenne de la matrice 1(6,). 

Dans les exemples suivants les tailles n, et #7, des échantillons sont arbi- 
traires. 

EXEMPLE 3. Soient À € #, et Ÿ € #,,,2. On demande de tester 
l'hypothèse H, = {œ, = œ,], o? étant inconnue. Pour déterminer les tests 
asymptotiquement minimax à l’aide du théorème 2, il nous faut trouvèr la 


statistique R,(X, Y) de (8), où, dans cet exemple, u, = a;,u = 9°, 


_. l 
0 = (t,,a,,0*). Onalnf,, (fe. 52) = — 5m +1) In (2x0?) — 
M #2 
l l 7. 
ne ÿ (x; — œ 1) — 352 . (y, — œ)°. En annulant les dérivées de 
i=1 i=i 
cette fonction par rapport à &,, æ, et a°, et en résolvant les équations obte- 
nues, on trouve (dans les notations de l’exemple 2) 


0 = (x, y,aSi + (1—- a)S?), a = 


(12) 
Jo (X, Y) = [2re (aS? + (1 — a) S2)] Vir2)2, 


En procédant de même avec la fonction Inf,(x) f,(Y) = 
= nf, 24) fix o2)(N), On obtient (cf. exemple 2) 


0* F (z, S$ y), 
| (13) 
— ;(11+n) 


Joe (À) ge (Y) = (2reS? ;) 
Un test asymptotiquement optimal sera donc de la forme 


2 
NT) > er /Ui+m) 
aS? + (1 — a) SÈ 


Va@ — a)lx-yl, Ee 
Vas? + (1 — a)SÈ LE 
où À, est le quantile d’ordre 1 — € de la distribution du x? à un degré de 


liberté, si bien que VA, peut être remplacée par la valeur X,,, pour laquelle 
B,,Q—X,,2 À, 2D = 1 — €. Il est immédiat de voir que le premier membre 


ou (cf. (7)) 
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de l’inégalité 
Va(-ajn, +n,)1x-— yl 
VaS? + (1 — a)S? 


qui définit un test asymptotiquement minimax, sera une variable aléatoire 
asymptotiquement normale de paramètres (0, 1) après la substitution de 
x— yàalx — yl. 

Mais ce test peut être rendu exact (c’est-à-dire de niveau exact donné à 
l’avance). En effet, en vertu des résultats du $ 2.32 pour l’hypothèse FH, 


> À, h (14) 


nn, X — y 
nñ, + A; [ed 


2 — 
freres Ÿ G - x) EH, _;, 


E Po.» 


2 


0 0 
im] 
2 ke 
n, +n,)(1 — a)S 1 = 
M OS Le L )) 6-3} ER, 


i=1 


Ces trois variables aléatoires étant indépendantes, le rapport 


ee | nn) n, + M S2 + (1— a) S2 me 
i) ee | à 605 a)Sy 


_ Gt y)Va(l — a)(n, + n, — 2) ET, 
VaS? + (1 — a) SÈ ds: 


sera distribué suivant la loi de Student à n7, + n, — 2 degrés de liberté. 
Donc, le test (comparer avec (14)) 


(x — y) Va(l — a)fn, + n; — 2) . 
VaS? + (1 — a) SÈ | 


où 7, est tel que T,, +n,-20— 7,, TD = 1 — €, aura un niveau exactement 
égal à 1 — e et on peut l’utiliser pour n’importe quelles valeurs de n, et n, 
(et pas seulement pour les grandes). Ce test est appelé test de Student. Il 
possède aussi certaines propriétés d’optimalité exacte et pas seulement 
asymptotique (cf. [S0]). 

EXEMPLE 4. Soient X € P 02 tYE Paoo2- On teste l’hypothèse {o, = 
= 0,) pour à inconnu. En procédant comme dans l’exemple précédent, on 
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aboutit à une statistique (8) dont le dénominateur est le même que dans 
l'exemple précédent et le numérateur égal à 


P Ja. of) (Jen, 03 O7). (15) 


e . P 2) 
Ecrivons les équations du point de maximum 
F3 
1 ” 
ee (x, — x}? = SE + (x — x)’, 
1 


i=] 


ñ3 
D) G;— a} = S$ + (y — a), 
1 4 


03 = 
TL (x à) + 2 (ÿ - à) = 
0j 03 
En posant 
a | 
Se 0 |. 16 
Pr ae idee ue} 


on en déduit que 
œ — px + (1 — P) y, 
S? + (1— p} A7, oi = Si + p’4, 


2 
A 


où, pour simplifier, on a posé À = x — y; p peut être traité comme la solu- 
tion de l’équation (16) ou 
= a(Si + p*?A°) 
a(S? + p?A?) + (1 — a}(S£ + (1 — p})*A?) 
Vu que le maximum de (15) est égal à 
(2re)-"": +n2)/2 (S£ + (1 — p}A?)-"12 (Si + pA?)-"2/2 (17) 
en comparant cette expression à (13) et (7), on obtient le test asymptotique- 
ment minimax 
2 : 2 - 2 
ass + (1 a)Sÿ + a(l — a)A > eh lit) (18) 
(SZ + A — pPA?Y (SF + p'a7)-e 


ou 


2 = 
SU > eh/mitn) 4-1 (19) 
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a(1 — a)A? 
aS? + (1 — a)SŸ 
(1 + (1 — p}A7/S£ÿ(1 + p’A?/Si)!74 
d’ordre 1 — € de la distribution du x? à un degré de liberté. Ici A? = 
_ (o?/n, + oÿ/n,)t?, E E Bo, Sx/0i — 1, S?/02 : 1, o?/0f — |],p—-a 


1 + 


où À = , et À, est le quantile 


(on peut admettre pour simplifier que a = 1 est fixé), In A F 0 pour 
1 2 

chacune des hypothèses voisines envisagées. Donc, le second membre de 

(19) est de la forme 


— (0. 


Le premier membre de (19) est le rapport de la moyenne arithmétique à la 
moyenne géométrique des quantités S2 et SZ. Si l’on désigne S£/S£ par Z°, 
l'inégalité contraire de (19) peut être mise sous la forme 
2 

LR ne LISE (20) 
2” n, +" 
Au premier membre figure une fonction de Z convexe vers le bas (on peut, 
pour fixer les idées, admettre que a < 1/2) présentant un zéro multiple en 
Z = 1. Vu que le second membre de cette inégalité est petit, il nous sera 
commode de chercher la solution sous la forme Z? = 1 + ÿ pour £ petit. En 
limitant le développement en série suivant les puissances de ÿ à l’ordre 


deux, en obtient pour les bornes j: et ;; de l’intervalle sur lequel est vérifiée 
(20) les valeurs 


.. 2, + 6,) . 2, + 8,1) 
| aQ-an,+n)' ? AJa(i-an, +n)’ 


6, —0, 8, — 0. 


Ceci exprime, si l’on revient aux variables de départ, que le domaine 


[aa — an, +n)1S2/S2— 11 > VA =hp (21) 


(À, est défini dans l’exemple 3) définit un test asymptotiquement équivalent 
à (18) et par suite, asymptotiquement minimax. 

Comme dans l’exemple 3 nous pouvons rendre le test obtenu exact, 
puisque l’on connaît la distribution exacte de la statistique S2/S2. En effet 


n,S%/ EH, _,, n:Sÿ/05E€H 


ni] 
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et pour l’hypothèse H, = {o, = o;} 


: 
n, Sx 


-€eF 
n S$ 


LE ns In; 1° 


où F,, ini St la distribution de Fisher introduite dans le $ 2.2 et tabuleée 
dans de nombreux ouvrages de statistique. Ceci exprime que l’on peut cal- 
culer le niveau de signification exact du test (21) et l’appliquer pour tous 7, 
et 7, (pour les propriétés d’optimalité exacte de ce test cf. [50]). Si nr, et n, 
sont grands, le premier membre de (21) (considéré sans le signe de la valeur 
absolue) est une variable aléatoire asymptotiquement normale de paramé- 
tres (0, 1). 

4. Test asymptotiquement minimax pour le problème d’homogénéité 
partielle. Soient X € P;> Y € P,. 8, = (u,,v,),i = 1,2. On teste l’hypo- 
thèse {u, = u,] contre {u, # u,] pour des v, et v, quelconques. Comme pré- 
cédemment dim u, = /,1 < k. : 

Introduisons le nouveau paramètre 0 = (0,, 8,) = (u,, v,, u,, v,) de 
dimension 24. Comme précédemment traitons l’échantillon (X, Y) (pour 
n, = ñ, = ñ) comme un échantillon d’éléments (x,, y,), ..., (x, , y,) de den- 
sité 


LC D) = Jon) I) uso O- 


Pour cette famille le problème d’homogénéité partielle est équivalent au 
problème de test de l’hypothèse que 8 est situé sur la « courbe » 8 = g(œ) = 
= (u,,v,,u,,v,), où & = (u,, v,, v,) est un « sous-paramètre » de dimen- 
sion 24 — /. Nous proposons au lecteur de s’inspirer des raisonnements des 


numéros précédents pour écrire la matrice G = [2e . = lr:5.2k 
a. 


j = 1,...,2k — |, dont le rang sera égal à 2k — I. 

Comme dans les numéros 2 et 3, nous admettrons que le problème est 
« localisé » au voisinage du point 8, = (4,, v,). Introduisons le paramètre 
T=T(8)= (7,7 ,7", 7) = (u, — u,,u, — v,,u, — u,, vu, — v,). La 
contre - image a pour coordonnées 


Uy=T +Ug Vi =T + M =T +7 +u,, 
U; = 7\V + Up. 
Si l’on pose 7 = y/Vn,7y = (7',7°,7"", 7"), l’hypothèse A, sera de la 
forme H, = {y = 0}. Pour hypothèse concurrente on considérera 


l'hypothèse « séparée » H? = {y°"’1,(60)y "7 > b?}, où /,(8) admet la 
même signification que dans le théorème 2. 
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THÉORÈME 3. Supposons que la famille {P,] vérifie les conditions (RR) 
au voisinage du point 6,. Le test du rapport de vraisemblance 


SUP Jo, (2) Jo, (Y) 


(6,8, 


REX, 9) = — — ——— 
jbl EP Jan uen D 


eh /2 (22) 


est alors un test asymptotiquement minimax de niveau asymptotique 1 — € 
de H, contre H? définie dans (9) pour v, et v, quelconques. La valeur h, est 
la même que dans le théorème 2. 


DÉMONSTRATION. Elle reprend les raisonnements des numéros précé- 
dents et est entièrement basée sur le théorème 3.15.4. La recherche de la 
matrice d’information de Fisher /(8) pour le paramètre 8 et de la matrice 
M, pour la famille de densité /,,0,0,8.0 = ftugrvguo +8.vg) àU POINT B = 0 est 
laissée au soin du lecteur. 

La matrice {((0%, *)) et le vecteur (6%, 02) — (u*, ur, u*, u*), où 
(2,0%) et (u*,u*, vu?) sont les vecteurs réalisant le maximum du numéra- 
teur et du dénominateur de (22), nous permettent comme nous l’avons fait 
précédemment à l’aide du théorème 3.15.4 (cf. 3.15.12) de construire un 
test asymptotiquement équivalent utilisant la forme quadratique des esti- 
mateurs introduits. « 

EXEMPLE S. Comparaison des variances des lois normales. Soient X € 
(= Paso? Y E P (22.02), H, = {o, = 0}. Les calculs sont bien plus aisés que 
dans l’exemple 4, car la valeur du numérateur de (22) (de même que le vec- 
teur (0%,60%) = (x, SZ, y, S2)) est connue et le dénominateur a été calculé 
dans l’exemple 3 (cf. (12)). L’inégalité (22) sera ici de la forme 


2 2 
aS + (1 — a)SE ntm nn, 
2a 1— 
SZ SA-e) 


En comparant ceci à (19) et aux considérations postérieures, on est con- 
duit aux mêmes tests et conclusions que dans l’exemple 4. 

EXEMPLE 6. Problème de Berens-Fisher de comparaison des moyennes 
de deux lois normales. Soient X € NL = Po H; = {æœ, = |), les 
valeurs 0, et o, étant arbitraires. Dans cet exemple, le numérateur de (22) 
est le même que dans l’exemple précédent, quant au dénominateur, nous 
l’avons calculé dans l’exemple 4 (cf. (17) ; c’était le numérateur de (8)). 

Un test asymptotiquement minimax sera donc de la forme 


(ä + (1 — PE (* + Pa) > eh li +m) - (23) 
| s2 S d 
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où À = x — ya pour expression 


0? o2 
A = (ax, — @;) + 1 + LE, EE Por 
7 "2 


S2/0? 1: S?/02 . 1, 


de sorte que A . 0 pour l’hypothèse H,. Cette relation est valable de toute 


évidence pour chaque alternative voisine. Pour trouver un test asymptoti- 
quement équivalent à (23) de forme plus simple, considérons les parties 
principales des deux membres de l’inégalité (23). On a 


_ nY2A2 me 2 A2 
sup}, Go je, sh +0 1 r) 
S+ Sÿ n, +" (n, + n) 
où p, pi const. Vu que 
as? ‘ 
= A7 © — p” = CONSt, 
7 aS? + (1 — a)Si pr 
il vient 
a(i — a} S2A?(n, +n,) + a?(1 — a) Si A?(n, + n;) : 
(aS? + (1 — a) Si} 


1 
+ A“ + T>h +O(— |), 
M | G: + =) 


oùp, —p'" = const, AŸ(n, + n:) = 0. Cette inégalité peut être mise sous 
la forme équivalente 
2 
ES CET >h +6, 
D'où il vient que le test 
Ix= vive +m VA =) (24) 
VS£/a + Sÿ/(1 — a) 


est asymptotiquement équivalent à (23) et par suite asymptotiquement 
minimax pour le problème de Berens-Fisher. À ,, admet la même significa- 
tion que dans l’exemple 4. Contrairement aux exemples 2, 3 et 4, la distri- 
bution exacte de la statistique du premier membre de (24) dépend pour H, 
des paramètres inconnus o? et o£. 
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S. Quelques autres problèmes. Signalons encore deux classes de problè- 
mes dont les solutions asymptotiques peuvent être acquises à l’aide du 
théorème 3.15.4. 

1) La première classe est composée de problèmes généralisant ceux des 
numéros 2, 3 et 4 au cas où sont testées des hypothèses de la forme {8, = 
= f(6,)} (par exemple {8, = a + b8,]) dans les conditions du n° 2 et de la 
forme {u, = f(u,)| dans les conditions des n° 3 et 4. Il est immédiat de voir 
que les raisonnements des n°“ 2, 3 et 4 s’étendent à ce cas plus général. 

2) La deuxième classe comprend des problèmes relatifs à trois échantil- 
lons et plus. Considérons par exemple le problème d’homogénéité pour 
trois échantillons. Soient X € Pr, YEP,,etZ € P,,. On teste l'hypo- 
thèse H, = {8, = 8, = 6.,] contre son alternative. Supposons pour simpli- 
fier que les échantillons sont de tailles n,, n, et 7, égales à 7. Considérons 
l’échantillon global (X, Y, Z) comme un échantillon de taille 7 d'éléments 
CG Vis Zn) + Os Yo Z,) de densité f,(x, y, 2) = f, x) fo, ©) fo, (t), où 
8 = (8,,8,,8,). L'hypothèse FH, sera alors équivalente au fait que 0 est situé 
sur la « courbe » 8 = g(a), a æ 0,,g(œ) = (æ, æ, æ). Nous voyons que le 
problème se ramène de nouveau à celui envisagé dans le théorème 3.15.4. 


8 2. Problèmes d’homogénéité dans le cas général 


1. Position du problème. Dans ce paragraphe nous étudierons deux 
échantillons X et Y de tailles respectives n, et n, sans postuler qu’ils sont 
distribués suivant une loi d’une famille paramétrique. 

Le problème d’homogénéité des échantillons X et Y se présente comme 
suit dans le cas général. Soient X € P, et Y € P,. On demande de tester 
l'hypothèse H, = {P, = P,} contre H, = {P, # P,). Ces hypothèses sont 
visiblement toutes deux multiples. Les distributions P , et P, peuvent appar- 
tenir à une famille donnée ou être arbitraires. Le principe général de 
construction d’un test de choix entre FH, et H, reste le même que dans le 
chapitre 3 à une seule différence près, c’est qu’il est, comme au $ 1, relatif 
à l’échantillon global (X, Y), de sorte que x = +r(X, Y) est la probabilité 
d’accepter FH, pour (X, Y). Dans le cas non randomisé (x = 0 ou 1) le test x 
est défini par une région critique 9 C Z°”"1*"2 telle que H, est acceptée si 
(X, Ye 9. Le nombre 


1—-e= inf P,x P,(X, Men) 
P,E: 


s’appelle niveau (ou seuil) de signification et 
B,@,,P)=P,x P,(X, Men), PieZ, P,e Z, 
puissance du test x au « point » (P,, P.). 
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Un test + est dit convergent si B,(P,, P,) — 1 lorsque n, — œ,n, — © 
quelles que soient P, + P,,P,e %,P,e Z. 

Nous savons déjà que les distributions d’échantillonnage P? et P} cor- 
respondant aux échantillons X et Y tendent vers P, et P, lorsque n, et n, 
augmentent. C’est pourquoi il est naturel d’utiliser, pour construire les 
tests d’homogénéité, des « distances » d(P?, P}) de P? à P}, vérifiant les 
conditions générales décrites dans le $ 3.12. Ceci étant les tests non para- 
métriques et asymptotiquement non paramétriques présentent un intérêt 
particulier. Ces tests se définissent comme suit. 

Soit d(P, Q) une distance (pas forcément une métrique) sur l’espace des 
distributions. Si la probabilité 


P, XP, (PS,P})>c)=e (1) 
est indépendante du choix de P,, le test x défini par les égalités 


_ [0 si d@P;,Ph<c, 
0 [' sinon 


(2) 


est dit zon paramétrique. Il est évident que le test non paramétrique cons- 
truit est de niveau 1 — €. 
Les tests asymptotiquement non paramétriques se définissent de façon 
analogue, la relation (1) devant être valable par adjonction de l’opération 
lim  aupremier membre. Dans ce cas le test (2) aura un niveau 


My —2,72—0 

asymptotique égal à 1 — €. En l’absence de non-paramétricité (exacte ou 
asymptotique), il est assez malaisé de construire un test d’homogénéité de 
niveau donné. 

Considérons quelques principaux tests d’homogénéité. 

2. Test de Kolmogorov-Smirnov. Supposons que P, et P, sont de la 
clacce des distributions continues sur la droite et soient F$ et F? les 
fonctions de répartition empiriques respectives de PŸ et P}. Dans le test de 
Kolmogorov-Smirnov, la distance est 


Daim, = SUP F9) — FO). 


n 


Letest D, ,, > c basé sur la statistique D, ,, est non paramétrique. En 
effet, supposons que l’hypothèse H, est vraie et que F(f) est la fonction 


de répartition conjointe de X'et Y. La statistique D, ,, peut s’écrire 
Dim = SUP 1GY(F() — GH(FU))I, (3) 


ni72 


où G(u) = FY(F-l(u)) est la fonction de répartition empirique de la loi 
uniforme sur {[0, 1] (cf. $$ 1.6, 3.12). Mais en vertu de (3) on a D,, n, = 
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= sup [GY(u) — G?(u)l, de sorte que la distribution de D, 
u v 


dante de F. 
On pourrait trouver la distribution exacte de D, ,.Pourn,=n,=n 


par exemple 


n, SSt indépen- 


{n/k] 
P(nD,, > k) = 2(C,)7! Y (—-j}*!'C XX, (4) 
J=1 
k = 1,2, .,n. Ce fait a été établi par Gnédenko et Koroliouk par une 
réduction du problème à un problème simple sur les promenades aléatoires 
(cf. [26]). 

Au $ 1.6 nous avons vu que la distribution de nr, G}(u) est confondue 
avec celle du processus poissonnien f,(u), f,(1) = n,. Puisque GY(u) et 
G}(u) sont indépendantes, la distribution de G£(u) — G}(u), ue [0, 1], est 
confondue avec celle d’un processus poissonnien complexe ÿ (4) dans lequel 
les sauts de valeur 1/n, et 1/n, ont lieu avec les intensités respectives n, et 
ñn, ; la distribution doit être considérée sous la condition que n, + n, sauts 
se sont produits et que {(1) = 0. Donc 


P(D < x) = 


ñni,12 


= P (sur LE(u)l < x/5() = 0 ; n, + n, sauts se sont produit. 


Ce fait est utilisé dans l’ Annexe II pour démontrer le théorème 1.6.2 de 
convergence du processus w,(u) = Vn, (G*(u) — u) vers un pont brownien 
w° (n) et la convergence du processus 


= PS # LE $ 
Wa,n: (4) | SP (G?(u) — Gi(u)) 


vers un pont brownien. 

Plus exactement, la distribution /(w, ,.) converge vers la distribution 
f(w°) pour une métrique uniforme quelle que soit f mesurable et continue. 
On en déduit immédiatement la proposition suivante dite théorème de 
Smirnov. 


THÉORÈME I. 


| nn N 
lim P( [—12 D, , <x})=pP{ sup lw°(u)l < x\ = K(x), 
n 2 1.2 at 


A, —2%,73— 00 


où K(x) ést la fonction de Kolmogorov (cf. $$ 1.8, 3.12). 
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La fonction K(x) étant tabulée, le théorème 1 est un outil commode 
pour le calcul approché du niveau de signification du test de Kolmogorov- 
Smirnov. 

Nous proposons au lecteur de s’assurer que le test de Kolmogorov- 
Smirnov est convergent. 

3. Test du signe. Soit n, = n, = n. Formons les n différences 


Xi = Vis X, Ye (5) 


des observations de X et Y. Si l’hypothèse FH, est vraie et P, x P,(x, — 
— y, = 0) = 0 pour tous les P, e Z (de toute évidence, il en est toujours 
ainsi si Z est un ensemble de distributions continues), alors 


P, X P,(x, — y, > 0) = P, x P,(x, — y, < 0) = 1/2. 
La statistique » du test du signe est le nombre de différences strictement 


positives de (5) *). On peut construire ce test en prenant pour région cri- 
tique l’ensemble 
p — 2 > e} 
D . 


Ce test est non paramétrique, puisque la distribution P, est indépendante 
de ret 


Q = fœ n: 


P, x P,( = k) = Ck2-n. 


Le nombre c se détermine à partir de la relation 


y C2 re (6) 


k:124-nl<2c 


Vu que le premier membre croît de façon discrète lorsque c augmente, pour 
solution il faut prendre la plus petite valeur de c pour laquelle le premier 
membre de (6) est > 1 — €. 

Nous voyons que l’on utilise ici un test pour éprouver l’hypothèse que 
la probabilité de succès dans le schéma de Bernoulli est égale à 1/2. Du 
point de vue du problème primitif, on teste non pas l’hypothèse d’homogé- 
néité, mais l’hypothèse plus large que 


P, x P,(x, — y, < 0) = (F,()dF,() = 1/2, (7) 
où F: est la fonction de répartition de P., i = 1, 2. La relation (7) exprime 


que la médiane de la distribution de x, — y, est nulle. 


+) Si certaines différences X, — y, Sont nulles, il faut tout simplement les abandonner et 
prendre pour ñ le nombre de différences non nulles. 
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Le test du signe de niveau asymptotique 1 — € sera de la forme 
lv; | 
x(X, Y) = 1 si a > À po 
Boi OX À nD = 1 —e. 
Ce test n’est pas convergent, puisque pour P, # P, vérifiant (7) on a 
B,@P,,P,) — e < 1 lorsque nr, — œ,n, — ©. 

4. Test de Wilcoxon. Ce test fait largement recette pour éprouver les 
hypothèses d’homogénéité. 

Considérons l’échantillon global (X, Ÿ) et l’échantillon ordonné associé, 
c’est-à-dire l’échantillon obtenu en rangeant les éléments de (X, Ÿ) par 
ordre de grandeur croissante. Nous obtenons une suite de la forme 

yQ), y®, xG), y, xO), ...) (9) 


(8) 


où l’indice supérieur représente le numéro de l’observation dans l’échan- 
tillon ordonné associé, et la lettre indique à quel échantillon appartient 
cette observation. Supposons que r,, r,, …,r, désignent les rangs des élé- 
ments de X dans l’échantillon ordonné (9). Pour la suite (9), r, = 3etr, = 
= 5. On appelle statistique de Wilcoxon la fonction 


U = U(X, ») = S Gi 


im] 


où r, — i est le nombre des éléments de Y inférieurs à x, 

Vu que les transformations monotones effectuées sur les variables ne 
modifient pas l’ordre des observations (9) (l’ordre sera le même pour F}(t), 
F?(t) que pour F*(F-!(t)), F$(F= 1 (©), où F est la fonction de réparti- 
tion), le test basé sur la statistique U sera non paramétrique. 


THÉORÈME 2. Soient X € P,, Y € P, et supposons que F; e est la 
fonction de répartition de P,, i = 1,2, $ étant la classe des fonctions de 
répartition continues. Supposons d'autre part que a = n,/(n, + n,) — a, 
lorsque n, — œ et n, — ©. Alors 


U-nn,EF,(x) Ed, (10) 
Vnin,(n; + n) 
où = (1-4a)VE(GX) + a VF,(,.). 
SF, =F, = F,alorsF,(x;) ; Le 1» F0) € VU, et par suite EF, (x,) = 
= 1/2, VE x) = VF,(,) = 1/12. 
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Donc, le test de Wilcoxon de niveau asymptotique 1 — € sera de la 
forme 


Lu - F7) OR TAUCUUES" (11) 


2 V3 
Po A—X 2 À nD = 1—-e. 


Sur (10) on voit que ce test vise essentiellement à éprouver l’hypothèse 
(comparer avec (7)) 


(F0) dF,() = 1/2 ou ((F,() — F,())4F, (1) = 0. (12) 


Si l’on convient sans perte de généralité que F, (1) = t,t1e [0, 1] et que 
l’on admette que F,(0) = 0, F,(1) = 1, alors en vertu de l'égalité 


1 
(G — F,0)) dt = Ey, 
0 


l’hypothèse testée devient Ey, = 1/2. 

Ceci exprime que le test de Wilcoxon tout comme le test du signe est 
sensible essentiellement aux translations des distributions l’une par rap- 
port à l’autre. La puissance de ces tests est assez grande (cf. exemple 1) 
pour de telles alternatives déplacées. Si F, # F; et que (12) soit réalisée, 
l’hypothèse {F, = F,] sera acceptée avec une probabilité proche de 


& : (| CL kp_ L L7= 1) en vertu du test de Wilcoxon. Donc ce 
2 V3 2V30 


test n’est pas convergent. 
DÉMONSTRATION du théorème 2. La statistique U peut être mise sous la forme 


ñj 
D mF}@) = mn, | FO 4F;(. 
im] 
Posons 
w,() = Van, (F3 — F0), w,Q) = Vn, (F2 (0 - F0). 
On a alors, de toute évidence, 
U=nin, (L20 dF; (1) + Vn,n,(n, +) X 
x [Va [w,c dr, + VT— a (A dw, ©] + Van, Üw,() dw, 0. (3) 
Vu que fr, (t) dw, (r) = {w x) dF, (t), donc que la deuxième et la troisième intégrale de (13) 


sont de la même forme et sont indépendantes, pour prouver le théorème il suffit de s’assurer 
que 


Îw,Q F0 €, où = VF 0), (14) 
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et que 1 
—_———— { wy (1) dw, () — 0. (15) 
ntm s 
Le théorème 1.6.2 nous donne 
[wc ar, (1) € | w°(F, (0) 4F, (0), 6) 


où w° (u) est un pont brownien. Pour déterminer la distribution de la dernière intégrale, on 
remarquera que les trajectoires du processus wienérien w(u) sont presque sûrement conti- 
nues [11], w°(u) = w(u) — uw(1), et que par conséquent l'intégrale (16) est par définition la 
quantité vers laquelle convergent presque sûrement pour N — les sommes 


N 
D WE) A,F, - mw(1), (17) 
is] 


oùm, = (F0) dF,(t}et (AY o ©st une subdivision de l’axe réel, A,g = g(1,) — g(t;_,), 


i N 
WG) = Ÿ A,w(F,), w(1) = Ÿ 4,w(F,): D'après la transformation d’Abel 
[=] [=1 


D (£ 4 )o. - D ( ÿ o)a. 


l=i 


Donc, (17) est égale à 


N 
YO G-F(_;)- m)Aw(E). (18) 


s 
is] 


lil —m, = | F,() dF,(0) = m, et A,w(F.) sont des variables aléatoires normales indépen- 
dantes de paramètres (0, A,F,). La distribution (17), (18) sera donc normale, de moyenne 
nulle et de variance 


N 
Z Um, - F4 4, — (Om, - FOP dF,@O = VF,6). 


=] 


Ceci prouve (14). 
Pour établir (15) *), le plus simple est d’estimer la variance de l'intégrale de (15). En 
approchant encore l'intégrale par une somme finie, on s’assure que la variance 


Ver = E([ w,0 dw, 0) 
est bornée lorsque n, — , n, — œ. Ceci et l'inégalité de Tchébychev entraînent (15). Nous 
glissons sur la démonstration du fait que V,y est bornée à cause de la lourdeur et de la 
routine des calculs. 

Voir également [35] au sujet des tests du signe et de Wilcoxon._ 


e) L'intégrale de (15) converge en loi vers {we (F, (0) dw°(F,()). 
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EXEMPLE 1. Nous avons déjà signalé que les tests du signe et de Wil- 
coxon étaient les plus sensibles aux translations. Il serait intéressant de 
comparer leurs puissances à celle. du test optimal d’homogénéité pour une 
famille & de distributions se déduisant l’une de l’autre par une transla- 
tion. Plus exactement, soit 


P=(E,,}, P, = 


ar P2 = Ÿ d'u 


Dans ce cas le théorème 1.1 affirme l’existence d’un test asymptotiquement 
minimax 7, de niveau 1 — € de l’hypothèse H, = {P, = P,}] = (x, = a.) 
contre H? = {læ, — æ,l > b/Vn] qui est de la forme 


IX—YI> A, V2, 8,0 Xp) = 1-6 


(le lecteur peut s’assurer seul que l’inégalité de cet exemple est équivalente à 
(1.3), (1.4). Utilisons ce test comme un étalon de comparaison avec 
d’autres tests et considérons l’alternative (P,, P,), où &«, = @, + c/Vn 
(nous considérons des alternatives voisines pour éviter d’avoir affaire au 
problème des grands écarts). Il est évident que dans ce cas (x — y) € 
E P_ Win: Donc 


6: @;> P.) _ P, X P,(Ix — y > À ph V2/n) = 


= | — E_5: (J—X >; À nl) _ 
= 1 #,,0-X,; + cV2,X,2 + c/V2D æ B(c). (19) 


Considérons maintenant le test du signe (8) et désignons-le par x,. En 
développant en série suivant les puissances de c/Vn, on obtient (PB, ,2(x) = 
— LE x.o (4 —®æ,Xx D) 


C 1 C 1 1 
P, xP — y, <0)=9 = — - = 
1 > Y; ) 0,2 (<= ) 2 T NA. Er rs - + o(?), 
Donc, au point (P,, P.) 
2 n cvn 
> » e 
Vn (- 2° Sr) € 0,1 


Pour le test x, de niveau asymptotique 1 — € on a par conséquent 


n 
8, @;;,P,) = P, X P, (2 p -2 > Navi) _ 


-1-#,, (]-x2 + ——. À n + 7 |). 
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Considérons enfin le test x, de Wilcoxon (cf. (11)) qui est ici de la forme 
n? à _n3/2 
U—- — | > s 
Rien 
Il est évident que la statistique U est invariante par une translation des élé- 


ments de X et Ÿ. On peut donc admettre que P, = &,,,P, = & ,;, et par 
suite 


EF, (x,) = ETC dF,() = (&, ( _ FF} = 


(sr) 2 ar +26) 


Comme VF (&) _ VF, (x,) = 1/12, VF, 6.) — VF(x,) = 1/12, il vient 
en vertu du théorème 2 
: La) _ 


8,,@s: P) = Pi X P; ( : 


2 
Eu 
2 3/2 
< V6n-3/2 + Le + =) = 
i (u D ode) At, 
= 1 #1 ( Ja + Nr El 


Remarquons maintenant que 6, (c) (cf. 19)) est une fonction monotone 
strictement croissante de c et que pour les grands n 


B,.@;, P) = Bo RE , 8, Pr P}) = Bo RE ). 


Donc, pour tout c > 0 le plus puissant des tests x,, x, et x, est, comme on 
s’y attendait, le test x,. Viennent ensuite le test de Wilcoxon et le test du 
signe ; à noter que le test de Wilcoxon le cède de très peu au test x,, puisque 
V3/x = 0,977. 

Si l’on considère des échantillons X ” et Ÿ ” de taille z° > n pour le 
même biais &, — œ, = c/Vn, alors pour déterminer la puissance des tests 
x;(X”, YŸ”) au point (P,, P,) à l’aide de la même procédure de calcul, il faut 
envisager le problème précédent pour une nouvelle valeur de c égale à c” = 
= cVn°Nn (@; — @, sera alors égale à c’/Vn”). Donc, au point (P,, P.) 
les puissances de x,(X”, Y ‘) et de x,(X”°, Y ”) seront approximativement 
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égales à 


“(PAGE PDA 


2n° 
L'identification ——— = 2 = ] nous donne les valeurs nr ° = 
xn xn 


Th 
UF 
2 


n° = LL (indépendantes de c) pour le nombre d’observations qu’il faut 


effectuer pour obtenir la même puissance avec les tests x, et x, qu’avec le 
test x, pour ñn observations. Par exemple, pour obtenir les mêmes résultats 
il faut effectuer 100 observations pour le test x,, = 105 pour le test +, et 
æ 157 pour le test x,. 
On obtiendrait des résultats foncièrement différents si l’on testait 
l’homogénéité pour la famille & = {$,,2). Les tests du signe et de Wil- 
coxon seraient non convergents dans ce cas. Plus, le test du signe de niveau 
1 — € serait en fait identique au test x = € qui est indépendant des échantil- 
lons, puisque E(x, — y,) = 0etP, x P,(x, — y, > 0) = 1/2 pour tout 
couple de distributions P , et P, de Z. Pour ce problème on pourrait envisa- 
ger d’autres tests non paramétriques basés sur les statistiques r,, par exem- 
mi 

ple le test y Fr. -r)ro=0,r, +1 = A qui rappelle par ses proprié- 
i=0 

tés le test de Moran ($ 3.12). 

5. Le test du x? comme test asymptotiquement optimal de l’homogé- 
néité au vu de données groupées. Dans ce numéro nous admettrons que les 
données sont groupées dans les deux échantillons X et Ÿ de tailles respec- 
tives n, et 7, (cf. $ 3.16). Au lieu des échantillons X et Y on peut utiliser 
dans ce cas les vecteurs » = (v,, ...,»,) et u = (u,, .…, u,) des fréquences 
des observations respectivement des échantillons X et Ÿ contenues dans les 
intervalles de groupement A,, …, A,. Désignons par 8; = (6,,, ...,6,),i = 
= 1,2, les vecteurs des probabilités d’accès des observations respectives de 
X et de Y aux intervalles A,, .…, À,, de sorte que 0,, = P(x;€ A,), 8, = 
= P(y;€e À,). Les échantillons grossis X et Ÿ peuvent alors être traités 
comme des échantillons distribués suivant des lois des familles paramétri- 
ques (BB, | et (B;.) respectivement. Le problème devient donc paramétrique 
et l’on peut utiliser les résultats développés dans l’exemple 1 du paragraphe 
précédent. Il résulte de cet exemple que si nous testons l’hypothèse 
d’homogénéité H, = {8, = 8.) dans le cas où le paramètre 8 est localisé, 
c’est-à-dire dans le cas où les valeurs 0, et 8, sont situées au voisinage du 
point 4, = (y, .-. 0); Un test asymptotiquement minimax de niveau 
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asymptotique 1 — € de FH, contre 


- _ 9. v 2 
_ [Y Gi — 02) > —) 
bo "2 
{mi 


sera de la forme 


où h, est le quantile d’ordre 1 — € d’une distribution du x? à r — 1 degrés 
de liberté. Ceci n’est autre qu’un test du x? d’homogénéité au vu de don- 


nées groupées. 
Pour test asymptotiquement équivalent on pourrait envisager le test 


r Le 


DEL DEL Ye +y)in This he 
n, n)+n, 2 


CR im) =] 


8 3. Problèmes de régression 


1. Position du problème. Dans les applications on est souvent con- 
fronté à des problèmes portant sur des observations dont les distributions 
varient dans les expériences en fonction de certains paramètres caractéri- 
sant ces expériences. Désignons par 


X; = (x; 1 ..., X; ,) 
l’ensemble des valeurs de ces paramètres durant la i-ième expérience, i = 


= ]1,...,n. Les valeurs x;, sont définies soit par l’expérimentateur, soit par 
la nature du phénomène étudié. Désignons le vecteur (x,,,..., x, ,) par X, 


et la matrice (ÿ ) = (x7, …, x7) par X. Donc, contrairement à ce qui 


r 
précède, X est une (7 X n7)-matrice dont les éléments peuvent être des nom- 
bres non aléatoires quelconques dont la nature nous sera indifférente. 
Nous désignerons le vecteur des observations par Ÿ = (y,, .…, y,). 
Les problèmes de régression sont basés sur l’hypothèse que les observa- 
tions y; sont de la forme 


= œx; +... + a,Xx,, + £, 1=1,...,n, (1) 


où œ = (œ,, …, æ,) sont des constantes inconnues, £; € $, ,2 sont indépen- 
dantes. 
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La constante &, joue suuvent un rôle particulier, car dans bien des cas 
elle met un terme constant en évidence dans la représentation (1), ce qui 
correspond au fait que dans la matrice X on admet a priori que X, = 
= (1,...,1)(x;, = 1). Cette hypothèse ne sera pas utilisée dans la suite. Les 
variables aléatoires £; figurent des bruits, des fluctuations ou des erreurs de 
mesure. 

Le relation (1) peut être mise sous la forme matricielle 


Y = aX + £. (2) 


Une régression de la forme (1), (2) est dite linéaire (aussi bien en « qu’en 
X). Sont problèmes de régression aussi bien le problème d’estimation des 
paramètres inconnus & et a? sachant que (1), (2) sont vraies, que le pro- 
blème de test de l’hypothèse que (1), (2) sont valables. Dans les deux cas, 
on part de l’échantillon (X, Y}). Le terme d’« échantillon » est pris ici dans 
une acception plus large qu’auparavant et représente un ensemble d’obser- 
vations qui ne sont pas nécessairement de la même nature. Rappelons par 
ailleurs que le premier des deux « échantillons » X et Ÿ peut être non aléa- 
toire. La matrice X est parfois appelée regresseur et le vecteur Ÿ, réponse. 

Le modèle de régression (1), (2) est très général du point de vue de la 
forme de la dépendance de y; par rapport aux paramètres. Si l’on admet par 
exemple que x;, = Ÿ,(z;), où Ÿ,, .…, d, est un ensemble donné de fonctions 
et z; les valeurs d’un paramètre scalaire, on obtient le modèle 


Y; = @1V,() +. +a,v,()+8£6, i=1,...,n, (3) 


de régression en les fonctions arbitraires Ÿ,, ..…., d, (qui est encore linéaire 
en æ). Siÿ,(z) = 1,ÿ,(7) = zetr = 2, on obtient un modèle de régression 
linéaire élémentaire (de dimension un) (cf. fig. 6). 


Fig. 6. 


Le modèle général (1), (2) est parfois appelé modèle de régression 
ensembliste pour faire la distinction avec le modèle élémentaire. Nous ver- 
rons qu’en général les problèmes de régression sont reliés à l’étude (à l’exis- 
tence) d’une dépendance fonctionnelle y = #(x) pour une classe donnée de 
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fonctions & dans les cas où les observations de la variable y pour x donnée 
sont affectées d’écarts aléatoires. 

Les lignes X,, .…, X, de la matrice X de (2) sont généralement choisies 
linéairement indépendantes (sinon il serait impossible d’estimer les coor- 
données de æ). Nous adopterons cette convention qui exprime que la 
matrice X est de rang r. 

Il apparaît plus commode d’avoir parfois affaire à des vecteurs X,, … 
…, À, Orthogonaux, c’est-à-dire vérifiant la condition (#;,, X 5) = 0,1 €, 
où (a, b) désigne le produit scalaire. Si l’ensemble des vecteurs linéairement 
indépendants {X,]) ne possède pas cette propriété, on peut l’orthogonaliser 
en introduisant de nouveaux vecteurs 


(4) 


X/=X,+a,, À, , +. +4,11. 


r,r— 1 r,1 
Les coefficients a, ; se déterminent facilement à partir des conditions 
d’orthogonalité X} 1 X;, K # j, de sorte que, par exemple, a,, = 
_ _ Es À) 

Xi, X1) 
= AX, où À est une matrice trigonale inversible (dont la diagonale princi- 
pale est composée d’unités). On en déduit que X = A-!xX°, Y = 
= aA7!X" + £. On est conduit à un problème de régression de coeffi- 
cients 8 = æ&A”!. Le vecteur a est manifestement restitué par B à l’aide de 
l’égalité œ = BA. 

Pour une régression linéaire élémentaire, la condition d’orthogonalité 
de X, = (1,..., 1)et X, = (Z,, .,z,) équivaut à la condition Ÿ z, = O0 qui 
peut être visiblement satisfaite par un changement d’origine de la variable 
Z. 

2. Estimation des paramètres. On admettra dans la suite que r < net 
que les vecteurs X,, £ = 1, .…,r, sont linéairement indépendants. Dans le 
cas de la régression (1), (2), la fonction de vraisemblance de l’observation Ÿ 
pour X donné est égale à 


1 \” 1 + 4 2 
Jao2(Y) = D) wf- 2 L (5. D 2x4) }- 


n _ 2 
) op f- TE } © 


. Les relations (4) peuvent être mises sous la forme X° = 


GG 
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La fonction (5) dépend du paramètre 8 = (œ, o2?). A noter que si l’on 
traite (5) comme la fonction de vraisemblance non pas d’une seule observa- 
tion Ÿ (ou (X, Y)) mais de n observations y,, .…, y,, elle ne correspondra 
pas à un échantillon distribué suivant une loi d’une seule famille paramétri- 


que. Les observations y; suivent des lois différentes »,. Yi = y A Xip 
K=] 


dépendant de x. Donc, les considérations des chapitres précédents dans 
lesquelles les éléments de l’échantillon suivaient la même distribution ne 
passent pas ici. 

Ainsi, nous traiterons (5) comme une fonction de vraisemblance de 
l'observation (X, Y). Appliquons la méthode du maximum de vraisem- 
blance. On voit directement sur (5) que l’estimation du maximum de vrai- 
semblance œ* = @* qui maximise Je(Y) par rapport à «œ est une estimation 
qui minimise |Ÿ — œ«X1l2. Donc, la méthode du maximum de vraisem- 
blance coïncide ici avec la‘ « méthode des moindres carrés ». 

Designons par [#1] le sous-ensemble engendré par les vecteurs X,, … 
…, À, Ce sous-espace est composé des points de la forme &X où æ par- 
court les valeurs de R”, il est de dimension r et contient le point 8 = æ*X le 
moins éloigné de }Y (fig. 7). La valeur de B est definie de façon unique par la 


Fig. 7. 


condition d’orthogonalité de Y — 8 à” [X] ou ce qui est équivalent par les 
r conditions 


(Y-aX,X,)=(Y-aX)XT=0, k=1,..,r. 
Ces conditions peuvent s’écrire sous la forme matricielle (Y — a«*X)X7 = 
= 0. D'où il vient 
aœ*= YXT(XXT) !. (6) 
La matrice inverse (XX7)-! (d’ordre r) existe, puisque la matrice D = 


= XXT est définie positive. En effet, on a vu qu’il existe une matrice non 
dégénérée À telle que les lignes de la matrice X° = AX sont orthogonales. 


30—4195 
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Donc, la matrice D peut être mise sous la forme 
XXT = AIX'(X')(A4=I) = A-1B(AIY, 
où B = X’(X°)7 est une matrice diagonale d’éléments 
IX'12> 0 si ài=)j; 
= i | , 
ss D Le {o S ÎÆ). 
Par conséquent B est définie positive et aBa7 > Opourtoutae R’',a # 0. 
En posant b = aA, on obtient bDbT = aAXXTATaT = aBa7 > 0 pour 
tout be R’,b + 0, ce que nous voulions. 
(Y, 44) 
x, » À) 

On aurait pu établir (6) d’une autre façon : en dérivant (5) par rapport à 
a, et en égalant les dérivées à zéro. 

La différence Ÿ — æ*X est parfois appelée résidu. Ce résidu est ortho- 
gonal à / [X], donc à tout vecteur 7 X € 7 [X1], y e R’. Si l’on prend y = 
= à@* — a, on déduit de l’égalité Y — @œX = Y — œ*X + (œ* — æ)X que 

lY—-aXl2=1Y— a*X12+ |(œ* — a) Xl. (D) 


Trouvons maintenant un estimateur du maximum de vraisemblance 
pour o2. On voit sur (5) que ce sera le même estimateur que pour une 
famille normale (on peut de nouveau dériver (5) par rapport à o et égaler la 
dérivée à zéro), de sorte que 


Si X, sont orthogonaux, on déduit de (6) que a = 


(o?)* = 1Y- a*X12. (8) 
Posons 
(o?)* = __— LY — a*X12?= TT (çg2ye, (9) 
n-r n-r 
E, désignera dans la suite la matrice unité d’ordre /, o* = V(a?}*. 


THÉORÈME 1. Les estimateurs (6) et (9) sont des estimateurs efficaces 
sans biais indépendants pour les paramètres æ et o?. De plus 
(«* -a)D'?€ Poor, D= XX"; (10) 
(n — r)(o?)*/o? = 1Y - a*X|?/0?EH,_.. (11) 
Si X, sont orthogonaux, af sont indépendants et 
(af — a,)IX,l € #2. (12) 
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COROLLAIRE 1. De (10) et (11) on déduit que 


(@* — œ)D(a* — a)  I(a* — a)X1? 
(n — r)(o?}*  IY — «Xl? EFen-r 3) 


Soient a et a* les sous-vecteurs de dimension | < r des vecteurs a et a* 
composés par les coordonnées d'indices fixes k,, …, k,et soit X la matrice 
formée par les lignes X,, ..…., X,. Si X,,k = 1, ...,r, sont orthogonaux, 
alors 


(œ* Es aXXXT)!/2 E Pos (af + a,)IX,1/0% (= 4: (14) 

DÉMONSTRATION du théorème 1. Comme YX7 = aXX7T + EXT, il 
vient 

a=(YXT—-EXT)D-, a*—œ=E£XTD” (15) 


La matrice des moments d’ordre deux du vecteur (œ* — æ)D!/2 est égale à 


ED!/2(a* = a)T(œ* _ «)D'/? = D'2D-'XE £TEXTD- D? = o?E,. 


Les composantes de ce vecteur sont indépendantes, car normales, et 


Le |(«* — «)D'/?|? € H,. En vertu de (7) et (9), il vient d’autre part 
Ce 4 
(n — r)(o2}* = 1Y — a*X12 = 1E12 — |(o* — a)X 12. 


Assurons-nous maintenant que les vecteurs æ* et Ÿ — œ*X (donc æ* et o*) 
sont indépendants. Ces vecteurs étant normaux, il suffit de vérifier que les 
coefficients des corrélations entre leurs composantes sont nuls ou, ce qui 
est équivalent, que la matrice des covariances E(a* — œ}7(Y — œ*X) est 
nulle. Remarquons qu’en vertu de (6) 


a*X = YXT(XXT) IX = YXTD-!'X 

et le vecteur æ*X est le projeté de Y sur  [X}. Le projecteur associé à la 
matrice II = X7D-!X est doué des propriétés évidentes : II? = II, BXTI = 
= BX pour toute matrice B à r colonnes. Donc, en vertu de (15) 
E(a* — a)? (Y — a*X) = ED !XET(E — EXTD-'M) = 

= D'!X0?(E, — Il) = 0. 
Prouvons maintenant (11). La relation (7) entraîne 

LY — atX12 = LEZ — (o* — œ)X12 = 1E£12 — I(œ* — œ)D'212, 

30° 
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où — IE12 € H,,-+ l(a* — «)DI212? € H, (cf. (10). La proposition 
O Oo 
(11) découle de ces relations et du lemme (1). 


LEMME 1. Sin = 7, + 1, Où 1, ef n, sont indépendantes, n € H,,17, € 
€ H,, alors 1, € H,,_ 


DÉMONSTRATION. Si l’on désigne par #(f) la fonct'on caractéristique de 
la distribution AH, : &(t) = (1 + 2ir)-!/2, alors 
Een = o(tY = eUtY - Een. 


Comme #(t) # 0 sur la droite réelle, il vient Eem’ = p(t}"-". <Æ 

Que les estimateurs a*, (o2}* soient sans biais résulte manifestement de 
(10) et (11) (En = sin € H,). 

Reste à prouver que 8* = (œ*, (o2)*) est efficace. Remarquons à cet 
effet que la famille paramétrique (5) est de type exponentiel, puisque (5) se 
représente sous la forme (cf. (2.15.1)) 


_ Yo Layr- m}= 
A0 = (=) a | a UT? 2(Y, ax) + laXl?) 


r+1 
= nOexp { Ÿ' 4,0) U,(N + VU) 


£=] 
où 


En | Er _ 2 
h(") = (r)-"/, V(6) = -nino 7e laX 12, 


a, (8) = Æ, U(M=(,X), k=1,..,r, 


] 


a, (8) is 22 U,.,,() = |Yl2. N 


Les conditions des théorèmes 2.15.1 et 2.15.2 étant satisfaites, la statistique 
U = (U,(4, …, U,,,(X) (et avec elle 8*) est une statistique exhaustive 
complète minimale. D’où l’efficacité de 8* (cf. corollaire 2.15.1). 

La proposition (12) découle visiblement de (10), puisque an les X, 
orthogonaux, la matrice D!/2? est diagonale d’éléments | X, |. 

REMARQUE 1. Hotelling (cf. [73]) a prouvé que Vas > L2/1X. |2, l’éga- 
lité n’étant réalisée que si les À, sont orthogonaux. Si donc l’on envisage de 
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réaliser une expérience pour des valeurs données de 1X, 1, la façon opti- 
male de choisir X est de rendre les X, orthogonaux. 

REMARQUE 2. Il serait intéressant de comparer la matrice des moments 
d'ordre deux de l’estimateur 0* avec la borne inférieure des estimateurs 
sans biais, définie, en vertu de l’inégalité multidimensionnelle de Rao- 
Cramer, par la matrice 7Z-1(6), où Z(6) est la matrice d’information de 
Fisher 


dL  ôL 
3, d6. 


î 


16) = H,@M, 1,6) =E, , L=L(Y;68) = hf,(N. 


Ici, = a,,k = 1,...,r,0,,, = o?. Supposons pour simplifier que les X, 
sont orthogonaux. L'indépendance des 8° entraîne que la matrice E, (8° — 
— 0)7(0* — 0) sera diagonale d'éléments 


ee 


E,(a* — a} TX K=1,...,7r, 
E, ((o2)* — 02} = ef - à) = et 1} = 20° : 
n-r nr nr 


où x} € H,. 
D'autre part, vu que 


ôL _ 1 1 

D (: D sx)u = 50 - e0 x. 
: is] j=1 

dL _  n 1 + L 

mr tan DU 2%)" 


on trouve pour la matrice 7(8), k = ,..,r, 


1:06) =E, x — aX)T(Y — aX) XT = 


_. TEYT = L _ IXPEIEI2 IX, 12 
o4 EX,E EXT = pe E(£, X,? = À — ue 


LE V(E NT 7 : 
LaurO = E b (£ fe 1,6).= 0 
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pour i # j. De sorte que 


o | 
0 0 
xl? | 
r'@=| , nes 
0 
O0 . 0 


n 


Donc, dans l'inégalité de Rao-Cramer 
E,(8* — 0)7 @* — 8) > 171) (16) 


l’égalité est réalisée pour les r premières composantes de 0*. Elle ne l’est pas 
pour la (r + 1)-ième (bien que les deux parties de (16) se conduisent asymp- 
totiquement de la même manière), puisque la condition nécessaire et suffi- 
sante du theorème 2.16.1 A est mise en défaut. 

REMARQUE 3. La condition de normalité des £; devient de peu d’impor- 
tance pour les propositions (10), (11) et (12) si z est grand (ans (11)il est 
préférable de procéder à une normalisation et d’affirmer que la variable 
aléatoire suit une loi approximativement normale). 

REMARQUE 4. Le terme « régression » concerne la distribution con- 
jointe de deux variables aléatoires £ et n et désigne la courbe 


g(x) = E(nl£ = x) 


qui s’appelle également courbe d’estimation ou de régression de 7 en £. Si 
par exemple (£, n) € , 2,7 = (71, 72); o? = lol, i,j = 1,2, alorsg(x) = 


= 2 + 712 x — y,) comme on l’a vu dans les chapitres précédents. Ceci 
[0 4 


est une régression linéaire élémentaire. 
REMARQUE 5. L'hypothèse que les £; suivent la même loi #, 2, a? étant 
connue, peut être affaiblie. On peut admettre que £; € #, 2 si les o; sont 


différentes et connues. Dans ce cas, en désignant la matrice diagonale 


(a ) par o et en introduisant les nouvelles variables £’ = £a”, 
n 
on est conduit au problème de régression 


Y'=aX +E;, 


dans lequel le vecteur des observations Ÿ” et le régresseur X ” sont connus, 
Le, E,* Il est immédiat de vérifier (nous laissons ceci au soin du lec- 


teur) qu’on a l’analogue suivant du théorème 1. 
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THÉORÈME 2. L'estimateur 
a* = Yo-2XT(D') |, D'=Xo ?X1, 
est un estimateur efficace sans biais, 
(a* — «aXD')/?€E Por 


: 2 
: (5 D aÿra) 
axe NE en, 


OR | 


Considérons encore le théorème 1. Les relations (10), (11) et (12) qui y 
ont été établies nous permettent de construire les régions de confiance aussi 
bien pour des coordonnées particulières de 8 que pour 8 dans son ensemble. 
Par exemple 


(a r)o") __2_U@- er 
PP, —"—— <o <——"——)}=1-e, (17) 
( ho ha 
et si X, sont orthogonaux, alors 
Lp0° 
LX, | 


où 
T,-, 0-2 LD ie €, H,_,(Q—AÛ, hGD = l—e. 


Supposons que les X, sont orthogonaux. Désignons par æ le sous- 
vecteur de « défini dans le corollaire 1. Le théorème 1 nous recommande de 
construire la région de confiance pour « à l’aide de la relation 


l(@œ — «*)X 1? 
———— < J,. 19 
mn 2 
La valeur f, correspondant au niveau donné 1 — € se détermine (comme 
le chapitre 3) à l’aide de la distribution de Fisher F,,_, à (/,n —r) 
d de liberté. 
i ao? est connue, l'intervalle de confiance sera défini par la relation 


l(œ— a*)X1?< 02h, (20) 
où h, est le quantile d’ordre 1 — € de la distribution H. 


Dans les problèmes de régression on peut avoir aussi à estimer la valeur 
de la surface de régression y = æz7 en un nouveau point z = (z,, …, z,)e 
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e R’ donné a priori. Posons y* = a*z/. On trouve comme précédemment 
y*—y = (@* — œ)z7 = EXTD ze, à, 


s — 
d? = o?zD-!z7, —— Y SR 

Ceci nous permet de construire les intervalles de confiance pour y. 

Signalons que la recherche de la région de confiance pour la surface de 
régression « dans l’ensemble » est un problème plus compliqué (comparer 
avec [73]). L'ensemble des surfaces composant la région de confiance sera 
défini par la région de confiance de 8, région qui est construite par exemple 
à l’aide de (10), (11) (cf. $ 3.8). Pour plus de détails voir [73]. 

3. Test d’hypothèses concernant la régression linéaire. Nous aborde- 
rons deux types de problèmes. 

1) Supposons que l’on sache que la représentation (1), (2) a lieu. On 
demande de tester l’hypothèse que 8 est égal à une valeur donnée 8” ou que 
l’ensemble de coordonnées 0,» Lau 04, est égal à l’ensemble 0%,» Le 04,» les 
autres coordonnées étant inconnues. 

Il est commode de construire les tests de telles hypothèses à l’aide des 
régions de confiance (17) à (20) (cf. $ 3.8). Supposons par exemple qu’on 
demande de tester l'hypothèse H, que Y est indépendant de X pour une 
régression linéaire élémentaire, c’est-à-dire l’hypothèse H, = {œ, = 0). De 
(18) (ou de (14)) on déduit un test de niveau 1 — € infirmant l'hypothèse H/, 
si 


la! > 1,n0%/1X21. (21) 


Dans le cas général d’une régression (1) avec des X, orthogonaux, 
l’hypothèse que Y est indépendant de X sera de la forme H, = {x = 0}, où 
@ = (œ;, .…, a,), X;, 1 et pour l’éprouver on peut se servir du test 


FD<E 
none (22) 
où X et . sont définis dans (19) pour / = r — 1. 

On peut appliquer aussi les approches du $ 3.15 dans lequel on a testé 
l'appartenance de la loi de l’échantillon à une sous-famille paramétrique. 
On est alors conduit à un test du rapport de vraisemblance qui, dans un cer- 
tain sens, sera proche de (22). Si a? est connue, le test du rapport de vrai- 


semblance de H, = {a = 0} sera de la forme 
o"?la*X|?2>h,, 


où À. est le quantile d’ordre 1 — € de la loi H,_,. Ce test sera minimax 
(cf. $$ 3.9,-3.10) pour les alternatives séparées en conséquence. 
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2) Test de l’hypothèse de la présence de la régression (1), (2) dans 
l’échantillon (X, Y). On sous-entend par là l’hypothèse que la représenta- 
tion (1), (2) a lieu pour des « et os quelconques, c’est-à-dire que ao” !(Y — 
— aX)ES, E, POUr des « et « quelconques. On reconnaît ici un problème 
d’appartenance de la loi de Ÿ à une famille paramétrique. Mais, comme 
déjà signalé, les observations de Ÿ ne suivent pas la même loi. Pour rame- 
ner le problème à des observations équidistribuées (cf. $ 3.17), on se servira 
de la proposition suivante qui complète le théorème 1. Admettons que les 
X, sont orthogonaux. 


THÉORÈME 3. Soit C une matrice orthogonale d'ordre n dont les r pre- 
mières colonnes sont les colonnes de la matrice XTD-!”2, Alors les coor- 
données du vecteur à = (Y — ax*X)C sont indépendantes et telles que 
ô, = …. =, = 0,6 Eb,,,i=r+1,...,n. 


Le problème se ramène donc au test de l’hypothèse que la loi de l’échan- 
tillon ô,,,, ..., ô, de taille n — r appartient à la famille &, 2 (par abus de 
langage r observations ont été utilisées pour estimer æ). Ce problème a été 
étudié au $ 3.17. Pour déterminer les valeurs 6; il faut calculer successive- 
ment les valeurs a* et Ÿ — a*X au vu des échantillons X et Y et appliquer à 
Y — g°X toute transformation C jouissant des propriétés signalées dans le 
thé e 3. 

1 o est connue, on est conduit à un problème de test de l’hypothèse sim- 
ple de distribution suivant la loi &, ,2. Cependant pour tester l’hypothèse 
qui nous intéresse dans ce cas, on peut solliciter le théorème 1 qui dit que 


(n — rXo2)*/0? EH... 


DÉMONSTRATION du théorème 3. Si Z 1 “ [X], les r premières coor- 
données du vecteur ZC forment le vecteur ZX7D-1/° = 0. Comme (Y - 
— a*X) 1 [X]etô = (Y — a«*X)C, on en déduit que ô, = … = ô, = 0. 
Par ailleurs 


Ô = (Y — &'X)C — (œ* — x) XC = n — n1D='"2XC, 


où n = EC, n = (11, .….,n,) = (a* — œ)D'/? = EXTD-\2et par suite 6 est 
l’image de n par une transformation lineaire, 
1612 = 1Y — a*X12 = 1£12 — 1(œ — a*)X1? = 


= ÿoni-inlis= Là 


im] isrt+! 
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ñn n 
de sorteque Y 6/= Y nj Ceci n’est possible que si (6,, ,, ..., 6, ) est 
imr+] isr+] 
l’image du vecteur (n,,,, ..., n,) par une rotation ou, ce qui est équivalent, 
par une transformation orthogonale. Ce qui prouve le théorème, puisque 
neo, 


EXEMPLE 1. Dans cet exemple on se propose de décrire l’aspect mathé- 
matique d’une expérience physique qui a permis de découvrir la désintégra- 
tion d’un méson % en deux mésons + (cf. [74]). Le résultat obtenu revêt un 
caractère statistique et utilise en fait un modèle de régression. 

On étudie l’interaction d’électrons (e- ) et de positrons (e * ) se dépla- 
çant à la rencontre les uns des autres. Si l’énergie totale 2E de ces particules 
se trouve au voisinage du point 2E, = 1019,6 MeV (fig. 8), leur collision 


() 1,00 1,01 1,02 1,03 1,04 2E 


Fig. 8. Courbes représentatives des estimations des lignes de régression sous les hypothèses H, 
et H, 


engendre (entre autres) des particules de deux types : des mésons y et des 
couples de mésons x. La probabilité d’apparition d’un couple de mésons x 
par interaction dee* ete se décrit à l’aide de E avec une grande précision 
par une fonction linéaire que nous représentons sous la forme (hypothèse 
#1) pi'E)=ap+aix, x=E-E,, (23) 
où a, et a, sont inconnus. 

On a avancé l’hypothèse (H,) que la désintégration des mésons 4 
engendrés peut également faire apparaître des couples de mésons x. Il est 
impossible de déceler directement cet effet, car il a été établi que si ce phé- 
nomène se produit, il se produit très rarement, pas plus d’une fois toutes les 
10* désintégrations des mésons $. Mais grâce à l’interférence de cette 
source supplementaire de naissance de mésons + avec la source principale, 
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la probabilité d’apparition de ces particules sera égale non pas à (23), mais 
à 


(24) 


2 
pif) = [ay + a,x] É PR | 


x? + d? 


(tout comme (23), la relation (24) est une approximation assez exacte d’une 
formule plus compliquée, approximation qui est basée sur le fait que la 
marge de variation de x = E — E, est petite en regard de E,;). Dans cette 
égalité, les coefficients b; et a; sont inconnus, d, connu. 

Pour déterminer laquelle des deux relations (23) ou (24) a effectivement 
lieu, on a réalisé 7 = 20 expériences pour diverses valeurs de l’énergie 
RUE US 


Tableau 1. Tableau des données expérimentales 


Numéro 
de l'obser- 
vation 


Numéro 
de l'obser- 
vation 


497,75 
500,65 
503,65 


© WHO JU à W D — 


es 


Le but de ces expériences (cf. tableau 1 et fig. 8) est de déterminer les 
nombres N;,i = 1, …, 20, d'interactions de e* ete” et les nombres v; de 
couples de mésons x nés pour une valeur E; de l’énergie. Les nombres N et 
y. sont assez grands (N,. sont de l’ordre de 10*). Vu que pour N fixe, le nom- 
bre », des couples de mésons x est distribué suivant la loi de Bernoulli 
B,: @; = p;* (E;) pour l’hypothèse H, et p, = p;" (E;) pour l’hypothèse 
H;), en se servant de l’approximation normale, on est en droit de considé- 
rer que " 
Yi NN. =pité, À € Po, 

(dans le terme £; figurent aussi des perturbations aléatoires (le fond)). En 
vertu de (23) et de (24), on a deux régressions possibles : 
1 
Pi = D (ee 2 (x;), ÿ, &) = X's K=0:.1 (25) 


k=0 
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(l’hypothèse H,) et 
| xt 
P,= -, a), WU)= Es, K=0,1,23 C6) 


k=0 


(l’hypothèse H,). 

Les valeurs o? varient très peu si les hypothèses sont modifiées. Ces 
valeurs peuvent être estimées avec une grande précision et l’on peut admet- 
tre qu’elles sont connues. Le théorème 2 affirme que la statistique 


» i Ke Ve )' (27) 
imi k 


suit la distribution H,,_,, où r est le nombre de paramètres «, estimés (r = 
= 2 pour l'hypothèse FH, etr = 4 pour l’hypothèse AH). 

Les calculs effectués conformément aux recommandations du théorème 
2 nous donnent les valeurs suivantes pour la statistique (27) : x? = 36,8 
dans le premier cas (r = 2) et x? = 19,0 dans le deuxième cas (r = 4). Les 
niveaux réellement atteints (cf. $ 3.4) du test x? > c des hypothèses (de 
base) H, et H, sont respectivement égaux à H,,(0, 36,8D = 0,9944, 

H,,(0, 19 ,0D = 0,731. 

En d’autres termes, l’hypothèse de l’absence d’une source supplémen- 
taire de génération des couples de mésons + est rejetée par un test basé sur 
la statistique du x?, de niveau 0,99 par exemple. Dans le même temps, 
l'hypothèse de la présence de cette source s’accorde bien avec les données 
expérimentales. 

Pour être plus exacts, dans ce problème nous aurions dü tester deux 
hypothèses paramétriques multiples correspondant à (25) et (26) pour les 
valeurs des probabilités d’apparition de couples de mésons +. Si l’on fait 
appel à un test du rapport de vraisemblance, on s’assure immédiatement 
qu’il sera basé sur la différence des statistiques du x? correspondant aux 
modèles (25) et (26) et donc il fournira des résultats à peu près identiques. 

4. Estimation et test d’hypothèses en présence de liaisons linéaires. 
Considérons comme précédemment une régression lineaire (1), (2) dans 
l’hypothèse que les coordonnées du vecteur æ son! liées par s < r relations 
linéaires 


-|r- 5 tuf- 


k 


y ay Any = Ch l = 1, Le 
K=1 


Ces relations peuvent être transcrites sous la forme matricielle 
œÂ = CC, (23) 
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où À est une(r X s)-matrice que l’on supposera être de rang s. Nous aurions 
pu dans ce cas exprimer s variables (disons æ,_.,,, …, æ,) en fonction des 
autres (c’est-à-dire de œ,, …., æ,_,), porter les valeurs acquises dans (1), (2) 
et obtenir de nouveau un problème standard de régression linéaire (mais 
avec un autre régresseur). 

Pour la suite il nous sera plus commode d’aborder la résolution de ce 
problème sous un autre angle. Adressons-nous à la démonstration du théo- 
rème 1. Le sous-espace des valeurs &, défini par (28) induit dans / [x] 
un sous-espace de dimension s des valeurs a X qui sera désigné par /, [X1. 
Il est évident que « e peut être estimé par les méthodes du théorème 1. 
L’estimateur cherché «fe. sera défini comme dans le théorème 1 à l’aide 
du projeté «%X de Ÿ sur /,[X]. Donc, conjointement à (Ÿ — œ*X) 1 
1 7 [X] nous obtiendrons la relation (Y — a$X7) 1 7, LX] qui définit œ{ 
de façon unique. Pour déterminer «% il est plus commode d'utiliser une 
approche analytique : appliquer la méthode des multiplicateurs indétermi- 
nés de Lagrange pour calculer min | Ÿ — œ«X1? sous la condition æ&A = c. 


A cet effet nous devons résoudre les équations 
aA = 6, {IT aX12 + A(&A — €Ÿ7] = 0 (29) 
œ@ 


(nous utilisons les multiplicateurs À,, .…, À qui forment le vecteur À et qui 
correspondent aux conditions (28)). Vu que | Y — œX12 = (Y — œXUY — 
— aX)7, la deuxième équation (29) devient 
—2YXT — 2aXXT + NAT = 0. 
D'où 
œ* = YX!'D-!'- 3 MD”! = œ* — 3 MTD°1 


D'après (29) onac = aï4 = a*A — ; \ATD-'A. La matrice D étant 


définie positive et À étant de rangs, la matrice B = D-!/24 sera aussi de 
rang s et la matrice B7B = ATD-!A sera aussi définie positive (cf. n° 1). 
Donc 
e 
2 


% 
d A 


(c — a*A)D,, 


a* + (c — a«*A) D, ATD°!, (30) 


où pour simplifier nous avons posé D, = [A7D-!A]"!. 

Le lecteur pourra s’assurer que æ% est un estimateur du maximum de 
vraisemblance du paramètre « sous la condition «A = c. On pourrait obte- 
nir le même résultat (30) par des considérations géométriques en utilisant la 
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relation a e /, [X1] et l’orthogonalité 
(Y — a%X) 1 Z[X], 
(3 — a) X = [(Y — a°X) — (Y — a X)] 1 [1 


Considérons maintenant le problème de test d’hypothèses linéaires. 
L'hypothèse H, concernant le paramètre « sera appelée linéaire si elle est de 
la forme H, = {xA = c}, où les matrices À et c sont définies plus haut. 

Signalons d’emblée qu’en introduisant le nouveau paramètre 6 = A, 
où À, est une matrice non dégénérée quelconque dont les s premières colon- 
nes sont confondues avec celles de À, on ramène le problème à la régression 


Y=BX" +, X'=A;"'X, (32) 


et au test de l’hypothèse {8 = c}], 8 = (8,, …, 8.) (cf. n° 2). 

Il est naturel de partir aussi des considérations suivantes. Plus l’écart 
entre «A et c est grand, plus æX est éloigné de , [#7] et plus les points aX 
et «a*X seront distants de «4 X € /, [X1]. Il est donc naturel de poser à la 
base du test de l’hypothèse FH la distance de «4 X à œ*X. Si l'hypothèse H, 
est vraie, on a grâce à (31) 

(at — a)XI2=1Y - at X12— 1Y — a*X 12. (33) 


En vertu de (30) (et en remplaçant c par «A) af — a* est l’image de a — a* 
par une transformation linéaire. Donc, (æx% — œ*)X est indépendant de 
Y — a*X (cf. théorème 1). 
Par ailleurs, d’après (30) 
l(@$ — a*)X12 = (a% — a*)XXT(a% — a*)] = 
= (c— a*A)D,(c — a*A) = (a* — @œ)AD, AT(a* — æ)7. (34) 


Comme 


(31) 


(a* — x)A = EXTD A € Po,c2ATD:! = +, 
il vient d’après (34) et le $ 2.2 (n° 4) 


2D3!? 


1 
-rl@i-o*)Xl EH. (35) 


De ce qui précède et du théorème 1 il résulte 
(a — a*)XI2  IY- a*Xl? 

LY — a*x|2 LY — a*X1? 

Les relations (35) et (36) nous permettent de construire des tests (basés sur 


la distance de a *X à «4 X°) de l'hypothèse H,, respectivement dans les cas où 
a? est connue et inconnue (cf. chap. 3). 


— 1EF,,.,. (36) 
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Il est important de signaler que l’hypothèse A, est une hypothèse que la 
loi de « appartient à une sous-famille paramétrique (en présence d’un para- 
mètre fantôme o? si a? est inconnu) et les statistiques (35) et (36) ne sont 
autres que des statistiques du rapport de vraisemblance (cf. $$ 3.10, 3.15). 
En effet, supposons par exemple que a? est inconnu. Alors (cf. (5), (8)) 


à 2 
sup f,(Y) = sup (V2r0)"" exp [- Er) 


un | ce $ | 2 . à n 
= (V2r0*)-" exp [- en = ( 2x ET) er ne. 


La valeur sup Je(N) se calcule exactement de la même façon. On remar- 
a€.7,0 
quera simplement que si æ € &, l’estimateur du maximum de vraisem- 


; | 
blance de « est «4 et celui de a? est, comme dans (8),— | Y — æ*X12. Donc 
n 


nt —n 
Sup fe) = (7 ET) e”n/2 
ar€.+,0 


n 


sup RO) jy xl 


av, 


sup f()  1Y — aXl" 


par conséquent la statistique du test du rapport de vraisemblance est équi- 
valente à (36). 

Si a? est connu on peut poser la relation (35) à la base du test de l’hypo- 
thèse H,. Le lecteur pourra s’assurer comme dans ce qui précède que c’est 
aussi un test du rapport de vraisemblance. Ce test étant invariant par un 
changement du paramètre (cf. $ 3.10), la remarque et les propositions des 
$$ 3.9, 3.10 nous permettent d’affirmer que le test du rapport de vraisem- 
blance 


l(@* — a«*)X12> oh, 


où À, est le quantile d’ordre 1 — € de la distribution H.,, sera un test mini- 
max de niveau 1 — € de H, contre les alternatives séparées de façon conve- 
nable. 

Grâce à ce qui précède et aux résultats des chapitres 2 et 3 (voir en parti- 
culier $ 3.15) on peut considérer que le test (36) et l’estimateur (30) seront 
aussi optimaux. Nous ne nous attarderons pas sur cette question. Un 
exposé assez complet des problèmes de régression est accessible dans [73]. 
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$ 4. Analyse de variance 


Les problèmes d’analyse de variance développés plus bas sont par 
essence des problèmes de régression. Ces derniers étudient la dépendance 
des observations par rapport à un facteur numérique x susceptible de pren- 
dre des valeurs quelconques x,, ..…, x, données a priori et représentant cha- 
cune une observation. Dans les problèmes d’analyse de variance on étudie 
généralement l’action des seuls facteurs discrets (un, deux ou plusieurs) 
qui ne peuvent prendre qu’un nombre fini de valeurs. Pour chacune de ces 
valeurs nous disposons d’un ensemble d’observations {un échantillon). 
L’analyse de variance regroupe des méthodes statistiques basées sur 
l’analyse des erreurs quadratiques moyennes et destinées à tester les 
diverses hypothèses et à estimer les paramètres liés à l’action des facteurs. 
Les principes de l’analyse de variance ont été posés par Fisher. 

1. Problèmes d’analyse de variance traités comme des problèmes de 
régression. Cas d’un seul facteur. Soient donnés 7 échantillons indépen- 


dants 
, = O2 Vin)» D CR RE TR Ym,) 


de tailles n,, .…, n, prélevés dans des populations normales : Y, € &, 2. 
Supposons que les observations ŸY,,k = 1, .…,r, ont été réalisées pour des 
valeurs différentes d’un facteur auquel on s'intéresse et qui influe sur les 
valeurs de la moyenne &,. La variance a? qui, en principe, est inconnue est 
supposée être la même pour tous les échantillons. Les problèmes d’analyse 
de variance comprennent le test d’hypothèses concernant les valeurs æ,, … 
…, à, et en particulier de l’hypothèse d’homogénéité {æ, = .. = a, = «| 
(ce problème a déjà été envisagé au $ 1) ainsi que l’estimation des paramè- 
tres «, et de leur variation. 

L’analyse de variance possède au même titre que la régression un très 
vaste champ d’applications notamment en sociologie, agriculture, biologie, 
médecine. Un problème assez typique relevant, par exemple, de la méde- 
cine est la détermination de la dépendance entre le taux de cholestérine con- 
tenue dans le sang d’un individu et la profession de ce dernier. 

Les problèmes d’analyse de variance formulés ci-dessus sont des cas 
particuliers de problèmes de régression linéaire. En effet, les observations 
yY,; peuvent être mises sous la forme 


Ye = Cr + Er Er € Poor K —_ | ST 2° i = | RE, Pr (1) 
Formons le vecteur 
Y = O1 “…. Vin, » Y21» Éndal à Yan: sv. » Y,1» Yen) 


et le vecteur £ d’après la même règle. Les relations (1) peuvent alors être 
écrites sous la forme matricielle Y = œX + £, où X est une (7 x n7)-matrice, 
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n=n, +... +n,, de la forme 


1 1.11 0 0.0 10 0.0 
0 0.0! 1 1... 0 0.0 
X = |0 0.0! 0 0..0[..10 0.0 


Il est évident que les lignes de cette matrice (les vecteurs X';) sont orthogo- 


nales. L'hypothèse H, = {œ, = æœ; = ... = æ,] peut être représentée sous la 
forme 
A = 0, . (2) 
où À est une matrice de dimension 7 xX (7 — 1) 
1 0... oO 
O0 1. 0 
ee 
0 O0. | 
| —! == 


Il est évident que À est de rang r — 1. 

Nous voyons que le test de l’hypothèse de base H, de l’analyse de 
variance n’est autre qu’un problème de test d’une hypothèse linéaire pour 
la régression. 

Voyons de quelles formes sont les estimateurs efficaces de et o? trou- 
vés dans le théorème 3.1. Ici | X, 1? = n,,la matrice D = XX7 d’ordrer est 
de la forme 


n, O 0 
0 n, … 0 
D = : : 
0 O0 n, 
(Y, X,) 
FR D Co d 


(n — r}o?)* = |Y — a*X1? = ÿ S Ori — vi: ) = = Q,(?7). 


ke! ES | 


En outre a*, …, &*, (o?)* sont indépendantes. Les intervalles de confiance 
pour les paramètres æ et o? et pour les fonctions de «æ et a? se construisent 
comme dans le $ 3. 


31—4195 
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Pour tester l’hypothèse linéaire (2), il nous faut calculer aussi l’estima- 
teur du maximum de vraisemblance a sous la condition (2) (cf. n° 4 du 
paragraphe précédent). Le moyen le plus simple est d’utiliser l’approche 
développée au début du n° 4 $ 3 et d’exprimer «,, .…, æ, en fonction des 
variables indépendantes. Ici nous n’avons qu’une seule variable indépen- 
dante ; supposons que c’est &«, = pet af = (u*, .…,u*), où u* minimise 


r ny 
lY — Gu, .….,u) X12 = D y Ou — H}°. 
kKsl i=] 
Il est évident que 
l r ñn£ 
nt on D D Yris 
K=l i=] 
L ñnk _ 
IY — añxXl?= Ÿ ) (y; — y} m Q(M) = 
K=l i=] 
r ñn£ 
L D y Oui — Y + Ye — M) = 
K=l i=1 
r ng r 
= y D Ori — Yk.) + y ng (Ye. — YŸ 
K=ml i=]1 k=1 


ñk 
(la somme des produits mixtes est nulle, puisque Y° (ÿ,; — Ye.) = 0). Si 
is] 


l'hypothèse F7, est vraie, en vertu de (3.33), (3) et de la dernière égalité on a 


[(œ — a*)X1È= Q(") — Q,(») = y ne (x. ES y} æ Q,(Y). 
Km] 
Si l'hypothèse A, est vraie, il vient d’après (3.36) que Q,(Y)/Q,(Y) € 
€ F,_,,-,, Ce qui permet de construire le test Q,(Y)/Q,(Y) > jf, (, est le 
quantile d’ordre 1 — e de F,_,,,_,) de l’hypothèse H, qui sera un test du 


rapport de vraisemblance. Si a? est connue, le test du rapport de vraisem- 
blance sera de la forme 


Q,M > oh, 


(h, est le quantile d’ordre 1 — € de H,_,) et sera un test minimax pour des 
alternatives convenablement séparées (cf. $ 3.9). 
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2. Influence de deux facteurs. Approche élémentaire. Dans les problé- 
mes de ce numéro on étudie l’influence de deux types de facteurs sur les 
résultats de l'expérience. En agriculture, par exemple, ce peut être l’étude 
de l’influence, sur la récolte, de la composition du sol (le facteur À prend r 
valeurs) et de la méthode de traitement (le facteur B prend s valeurs). 

Les observations peuvent être présentées sous la forme 


Yan = Qi + Exir Ex € oo? 
L= han e hist =: 


(4) 


et le modèle envisagé ne se distingue en rien du modèle (1) du n° 1. Ilest 
donc justiciable de tous les résultats du $ 3, cependant leur application 
directe soulève de grosses difficultés. La présence des triples indices est en 
soi une source de difficultés. Pour simplifier un peu le problème, on pose 
nu = À ; ceci nous débarassera d’un indice (l'indice i dans (4)). Par ailleurs, 
on proposera une approche élémentaire légèrement différente qui nous per- 
mettra d’établir sans recourir aux théorèmes du $ 3 des assertions indispen- 
sables au test des hypothèses de base. 

On étudie donc un échantillon Ÿ,, = y,, de taille un, de sorte que 
l’ensemble des données empiriques Ÿ se représente par une matrice der x s 
nombres y,, qui sont les résultats de l’expérience réalisée sous l’influence de 
la k-ième valeur du facteur À et de la /-ième valeur du facteur B. Cette 
matrice peut être traitée comme une matrice composée de 7 échantillons 
(lignes) de taille s correspondant aux diverses valeurs du facteur À ou com- 
posée de s échantillons (colonnes) de taille 7 correspondant aux diverses 
valeurs du facteur B. Dans la suite le groupement des observations sera réa- 
lisé en conséquence. Posons 


LIT LIT _ 1 
Yk. .. ÿ Ykt» Ya D Yet» Re > PTE 
[ei ke] kl 
On a l’identité 
Q(Y) = D) Ou — y} = Q, (7) + Q,(7) + Q,(7), (S) 
k,l 
où 


Q,(") = sy (y. 7 y}, Q,(1) = rY (y. = y}, 
k l 


9:17) _ ÿ Ou _ Ye. — Y. + y}. 


k,{ 


31* 
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Nous admettrons que l’influence des facteurs est additive, c’est-à-dire qu’il 
existe des a, et b, tels que 


|e77) = ak + b,, L'4 = 1, PRES l = 1, En (6) 
Il est évident que Q, définit les variations de a, (c’est-à-dire est lié au 


facteur À), Q,, les variations de b, (est lié au facteur B) et Q, une somme 
engendrée entièrement par le hasard. II est évident par ailleurs que 


Q:(Y +a)=0,(M), i=1,2,3. (D) 


THÉORÈME |. 1) 
Q,(Y)/0° € H,,_;5- D: (8) 


2) Si l'hypothèse H, = {a, = .… = a, = a) est vraie, alors Q,(Y) re 
dépend pas de Q,(Y) et ei 0,(n, Q, (Y)/0? € H,_,. On a une proposition 
analogue relativement à Q, et à l'hypothèse H} = pe … = b, = b). 


3) Si l'hypothèse H, = {a,, = a) est vraie, les trois formes quadrati- 
ques Q,, Q, et Q, sont indépendantes. 


DÉMONSTRATION. Posons sans nuire à la généralité o2 = 1. Alors 
| nie k D 
Ev.v. = fouoaÿ Si (J)# (, 1), 
Va Yo De si Gi) = (Kb. 
D'où 


Ë (2 )(Z Yu) (2 au) (2 Qi) + M 


où m est le nombre de termes semblables dans les sommes y et y . Ense 
I il 
servant de cette égalité, on trouve sans peine que 


EG. — Yu — y) = (x. — aa, a«)= (a, -aXb,—-b) (9) 


sous les conventions naturelles relatives aux notations &,., œ.,, @, @, b. Si 

l'hypothèse H, = {a, = ..… = a, = a) est vraie, l'espérance mathématique 

de (9) est nulle: Vu que E(y,. — y) = @,. — æ = 0, ceci exprime que 

l’ensemble des variables aléatoires {y,. — y] est indépendant de {y., — y). 
On établit de façon analogue que pour tous k, /et 7 


EC, = Ye XY.. Es y) = (0. 


Ceci exprime que l’ensemble {y,. — y} est indépendant aussi de {y,, — 
— Yÿ,. — Y., + y}. Ceci exprime à son tour que si H, est vraie, Q,(Y) ne 
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dépend pas de Q,(Y) et Q,(Y). Le fait que Q, (7) € H,. , résulte du lemme 
de Fisher ($ 2.32). 

La situation est la même si est réalisée l’hypothèse H,. Si l'hypothèse 
H est vraie (c’est-à-dire si les hypothèses H, et H, ont lieu), il est évident 
que les trois ensembles de variables aléatoires cités plus haut seront indé- 
pendants. Ce qui exprime l’indépendance de Q, (Y), Q,(Y) et Q,(Y). 

Reste à trouver la distribution de Q,(Y). Etant donné que cette distribu- 
tion ne dépend pas de a, et b,, on peut admettre que a, = b, = 0 pour tous 
les & et / et que par conséquent l’hypothèse F7, est réalisée. De la définition 
de Ste ’ensuit alors que Q(Y) € H,._,. Par ailleurs la relation (5), où 
Q,M € H,_, et Q,(Y) € H._,, est valable. Reste à utiliser l’indépen- 
dance de Q.(Y) et le lemme 3.1. <« 

On pourrait appliquer la même approche pour les problèmes du n° 1. 

Le théorème 1 légitime les procédures statistiques suivantes : 

1) Estimation des paramètres a, — a, b, — b;, a? (les nombres a, et b, 
de (6) sont définis à un facteur aëditif Constant près) à l’aide des cstinin 
teurs y,. — ÿ.  Y. 1 Y.;, ( 2)* = Q,(Y)/(r — 1)( — 1). Ces estimateurs 
seront efficaces, puisque les raisonnements sont les mêmes que ceux pro- 
duits dans le $ 3 et dans le n° 1 de ce paragraphe. Les intervalles de con- 
fiance pour o? et a, — a; peuvent être construits à l’aide des relations (8) 


Ye. 7 A . (a, GEz a;) € Pons 


x. — Y. — (a, — a) 


29,0) 
s{r — 1Xs — 1) 


(tout se passe de la même manière pour b, — b;). 

2) Test de l’hypothèse H, à l’aide du critère Q,/Q, > f.. Ce test sera de 
niveau 1 — € si f, est le quantile d’ordre 1 — € de la distribution 
F,_ _ 

Le test de de l'hypothèse H, sera de la même forme, soit 0,/0, > f.,, où f, 
est le quantile d’ordre 1 — € de la distribution F,_, ,_;45- 1)- 

3) Test de l'hypothèse A, à l’aide du critère 


Q, + Q; 
o ”* 


de niveau 1 — €, où f. est le quantile d’ordre 1 — € de la distribution 


€ Tex 1) 


be 2,(r- 1Xs-— 1)° , 
Les problèmes d’analyse de variance font l’objet d’un examen plus 


détaillé dans [72], [73]. 
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$ 5. Analyse discriminante 


Dans ce paragraphe on survolera un cercle de problèmes relevant de 
l’analyse discriminante *). 

Dans le 8 3.1 nous avons envisagé le problème suivant de test de 7 hypo- 
thèses simples. Etant donné les distributions P,, .…, P, et un échantillon X 
de taille 7, on demande de déterminer laquelle des hypothèses 


= (NE P;) (1) 


est la vraie. 

Mais dans les problèmes qui se posent en pratique, les distributions P, 
sont souvent inconnues et l’on ne peut se faire une idée sur elles qu’au vu 
des échantillons. 

Soient donc donnés r échantillons X; = (x;,, .…., x, ), ê = 1, …,r, de 
tailles respectives n,, ..…, n, associés à r distributions différentes inconnues 
P,,..., P, et soit donné de plus un échantillon X. On demande de résoudre 
encore le même problème : déterminer laquelle des hypothèses (1) est vraie. 
En d’autres termes, il faut dire de quel échantillon X,, …, X, l’échantillon 
X est le prolongement. 

Pour simplifier on se bornera à l’étude du cas r = 2. 

1. Cas paramétrique. Supposons tout d’abord que P; appartient à une 
famille paramétrique {P,] vérifiant la condition (4,), c’est-à-dire que X, € 
EP, 2€ P,, À € P,pour certains 0, # 0,,et0 = 8, ou8 = 6,. La pre- 
mière de ces égalités correspond à l’hypothèse H, = {X € Po, la 
deuxième, à l'hypothèse H, = [X € P, ). 

Supposons, toujours par souci de simplicité, que les échantillons sont 
de même taille :n, = n, = n. 

Considérons l’échantillon global (X',, X,, X) et représentons-le comme 
un échantillon de taille #7 formé par les observations (x,;, x;,, x;) et distri- 
bué suivant la loiP, .X Ps, x P, de densité Jo (x) 5,2) ox) dépendant 


du paramètre 8 = CA , 0, 6). Il est évident que a fonction de vraisemblance 
de l’échantillon (X°,, X,, X) sera égale à 


Lo X is Â2 À) = Jo A1) Jo, À 2) fo À). 


Nous sommes conduits au problème de test de l’hypothèse FH, que le 
paramètre 8 est situé sur la « courbe » 8 = 8, contre l’hypothèse H, que 8 
est situé sur une autre « courbe » 8 = 8.. Ceci est un problème de test de 


*) Les problèmes dans lesquels les distributions P. de (1) sont connues relèvent aussi de 
l'analyse diseriminante. 
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l'hypothèse que la loi de l’échantillon appartient à une sous-famille para- 
métrique (cf. $ 3.15) mais dans le cas où l’hypothèse concurrente est que 
cette loi appartient à une autre sous-famille paramétrique. Ce problème se 
traite comme dans le $ 3.15, mais il sort du cadre de cet ouvrage pour sa 
complexité sur le plan technique. On se bornera ici au cas d’un paramètre 0 
scalaire et on décrira succinctement la teneur de ce résultat qui est tout à 
fait identique à celle du $ 3.15 : si le paramètre 8 est localisé, c’est-à-dire si 
les points 8, et 8, sont situés au voisinage d’un point 6,, 18, — 8,1 > b/Vn 
et si la famille {P,) satisfait au point 8, les conditions de régularité (RR), 
alors le test du rapport de vraisemblance 


+. Jo, x, )Je, Xe, (x) 


TA ATAT AYAUT 21 # 
0 102 1 2 | 
sera US. US de H, contre H, pour ñn — ©. 

La restriction n, = n, = n n’est pas essentielle. On peut s’en dédouaner 
comme dans le $ 1. 

2. Cas général. Dans le cas général où l’on n’a aucune raison de suppo- 
ser que les X’; sont liés à une famille paramétrique, on peut développer une 
approche générale basée sur les mêmes considérations que celles qui ont été 
utilisées pour construire des tests d’homogénéité dans le $ 2. Dans ce cas le 
test de H, contre H, sera une fonction de trois échantillons, de sorte que 
x = x(X,, X,, X) est la probabilité d’accepter H, au vu de (X,, X;, X). 
Comme précédemment le test non randomisé est défini par sa région criti- 
quef C Zit"2+n dans l’espace des échantillons (4, #,, #). Il est natu- 
rel d’appeler niveau ou seuil de signification de ce test, le nombre 


1—e= inf P,xP,x P,(X,X:, X)é 0), 
P,e7.P)€7. 


où Z est la classe des distributions admissibles. La valeur 
B,®;; P.) =P,xP,Xx P,((X,, X2, À) € Q), 
Pie ?, P,e ?, 
est la puissance de ce test au point (P,, P.). 

On dit qu’un test x est convergent (ou consistant) si 8,(P,, P;) — 1 
lorsque nr, — œ,1n, — ©, n — œ quelles que soient P, # P,,P,e #, 
P,E Z. 

Pour construire des tests convergents on peut se servir de la distance des 
distributions empiriques PX, et PS. à P, et P, respectivement. Sid(P,Q)est 
une distance entre ces distributions, la distance dx, +) doit être plus 
petite que dx; P*) pour l’hypothèse H,. Donc, pour critère on peut 
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prendre l'inégalité 
dx; x) on dx; PY) < C, 


dont la réalisation exprime que FH, est vraie. Le calcul de tels tests (le calcul 
de leurs niveaux et de leurs puissances) est lié généralement à de grosses dif- 
ficultés (comparer avec les problèmes plus simples du $ 2). 

Le groupement des données nous permet d’utiliser un test asymptoti- 
quement optimal! (2) dans le cas général. Supposons qu’on a procédé à un 
groupement sur les domaines A,, .…, A, et que (v,,, ..….,v.,,)et(v,, .….,»,.) 
sont les fréquences d’accès des observations de X’;,i = 1,2, et de X respec- 
tivement à ces domaines. Supposons par ailleurs que 8; = (8,,, ..,8,,) sont 
les probabilités (P,(A,), .…, P,(4,,)) d'accès aux domaines A,, .…., A,, pour 
les distributions P;, ? = 1,2. Vu que la fonction de vraisemblance f, (X;) 


pour l’échantillon groupé X;, i = 1,2, est égale àf, (X;) = I] CAR le test 
(2) sera de la forme km 


A y Ex + v,)In 0, + P y Vik In 05 — 
k=! Loue 


= SUP YO Eu +)in0, — sup Y vx n0,4 > Inc, 


k=i 2 kn] 
ou 
m m 
Vy + VLr y 
(o, + v,)ln 4 E£ + Ÿ v,, In —Æ > 
Ÿ La : mn +n Le ñ, 
x=) k=1 
m m 
Vi + p v 
> Inc + D Guy +v,)in 2 x + D vin 7. (3) 
n,+n ñn) 
kel k=l 


On peut reproduire les mêmes raisonnements pour r > 2. 


CHAPITRE 5 


LA THÉORIE DES JEUX DANS LES PROBLÈMES 
DE STATISTIQUE MATHÉMATIQUE 


$$ 1, 2 et 3 : notions de jeux ordinaire et statistique. Principales ciasses de stratégies optimales. 
$S 4, 5 : méthodes de recherche des solutions optimales. 
SS 6, 7 et 8 : construction des décisions asymptotiquement optimales. 


$ 1. Remarques préliminaires 


Dans les chapitres précédents, nous avons étudié un grand nombre de 
problèmes de tout genre. Le trait commun de ces problèmes est que le statis- 
ticien doit prendre une décision au vu des données expérimentales. En théo- 
rie de l'estimation, il doit décider de l'estimation ponctuelle 8* qu’il faut 
prendre pour valeur inconnue du paramètre 8, en théorie de tests d’hypothè- 
ses statistiques, de la forme des assertions indiquant lesquelles des hypothè- 
ses avancées sur la nature de l'événement étudié sont justes, lesquelles sont 
fausses. Ces décisions, si elles sont erronées, se soldent par des pertes. Une 
erreur commise dans l'estimation en laboratoire (au vu d’un échantillon) de 
la composition d’un minerai peut compromettre le régime optimal de coulée 
et détériorer la qualité du métal. Ceci entraîne de grosses pertes matérielles 
dont l’ampleur dépend de la gravité de l'erreur. Une fausse décision concer- 
nant l'effet d’un remède testé sur un groupe d’expérience de malades peut 
de toute évidence se solder par des pertes qu’il sera possible d'exprimer par 
des unités. Nous adopterons cette convention pour les autres problèmes de 
statistique dans lesquels les dommages ne sont pas explicitement 
chiffrables. 

Ceci nous suggère de distinguer les quatre éléments suivants en statisti- 
que mathématique, des éléments qui définissent à proprement parler 
l'essence de chaque problème concret. Par souci de simplicité nous n’envisa- 
gerons dans la suite de l'exposé que des problèmes portant sur un seul 
échantillon X de taille n donnée. 

1) Un ensemble 6 dont les éléments 8 définissent l’état de l’objet étudié. 
Si 8 est connu, nous n’avons nul besoin de chercher une solution. L'ensemble 
6 est appelé aussi ensemble des paramètres bien que 8 puisse admettre une 
plus large interprétation (@ peut par exemple être très riche et coïncider avec 
l’ensemble de toutes les distributions sur un espace 2. 
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2) Pour collecter une information sur le paramètre inconnu 6, le statisti- 
cien doit effectuer une expérience et procéder à des observations sur une 
variable aléatoire dont la distribution dépend de 8. En d’autres termes, le 
statisticien dispose d’un échantillon X distribué suivant une loi Ps. Or on 
sait qu’il est possible d’extraire de l'échantillon X une information sur Pe, 
donc, sur 8. On peut admettre qu’est remplie la condition (40) (cf. $ 2.6) 
qui établit une correspondance biunivoque entre 0 et Pe. 

3) Dans les problèmes de statistique, on définit toujours un ensemble 
D = {6} de décisions que le statisticien pourra prendre. En théorie de l’esti- 
mation, l’ensemble D est généralement confondu avec © ; dans les problè- 
mes de test d’hypothèses, l’ensemble D est fini et contient autant d'éléments 
qu’il y a d’hypothèses à tester. Si 9 est connu, la décision ô = #(8) est uni- 
que. Si 8 est inconnu, il est souhaitable de choisir une décision ô qui soit 
optimale dans un certain sens. Mais l’optimisation des décisions sous- 
entend la possibilité de comparer lesdites décisions. Nous admettrons qu’à 
cet effet est donnée une fonction de perte chiffrant les conséquences d’une 
prise de décision. 

4) La fonction de perte w(ô, 8) est définie sur D X 6 et indique les pertes 
qui seront subies si la décision 6 est prise lorsque l’objet étudié se trouve 
dans l’état 9. On conviendra que w(6, 8) > 0 pour ô<#(8), w(w(8), 8) = 0. 

Si des quatre éléments précités on retire le n°2 relatif aux données expéri- 
mentales, on obtient un jeu ordinaire à deux joueurs opposant le statisticien 
à la nature. 


$ 2. Notions fondamentales et théorèmes relatifs au jeu à deux joueurs 


1. Jeu à deux joueurs. 

DÉFINITION 1. On appelle jeu à deux joueurs le triplet (D, 6, w) com- 
posé des ensembles D et 6 et de l’application w : D x © — [0, œ[. Les 
éléments à de D s'appellent stratégies du premier joueur, les éléments 0 € 
€ O, stratégies du second joueur, la fonction w de perte du premier joueur 
(ou la fonction de gain du second) définit les pertes w(ô, 8) subies par le 
premier joueur s’il opte pour la stratégie 6 et par le second, s’il choisit la 
stratégie 6. 

Le problème fondamental de la théorie des jeux à deux joueurs consiste 
à choisir une stratégie optimale du premier joueur auquel nous nous identi- 
fierons souvent. Il faut à cet effet munir l’ensemble des stratégies d’une cer- 
taine relation d’ordre. Cette tâche n’est pas aisée, car les pertes w(6, 0) qui 
devront être utilisées pour introduire cet ordre dépendent de deux argu- 
ments, si bien que pour chaque 6 il existera en général une seule stratégie 
ô qui minimisera w(6, 6). 
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DÉFINITION 2. On dira qu’une stratégie 6. esf meilleure que 62 si 
W(ô1, 0) < Ww(62, 0), VO EO (1) 


et s’il existe au moins une valeur 8, € © telle que w(ô1, 01) < w(ô2, 81). 
Si (1) est seule réalisée, on dira que la stratégie ô est aussi bonne que ü:. 
La stratégie & pour laquelle 


W(60, 0) < w(Ô, 0) pour tous les 6 et 6, 


sera appelée uniformément optimale (ou uniformément la meilleure). 

La stratégie uniformément la meilleure cause les plus petites pertes quel 
que soit 0. Mais cette stratégie n’existe généralement pas. 

Signalons les trois approches suivantes de l’étude des stratégies optima- 
les du premier joueur : 

— recherche des stratégies uniformément optimales dans les sous-clas- 
Ses ; 

— recherche des stratégies minimax et bayésiennes ; 

— étude de l’ensemble de toutes les stratégies inaméliorables (de la classe 
complète des stratégies). 

2. Stratégies uniformément optimales dans les sous-classes. Dans les 
problèmes de statistique mathématique, on utilise souvent la démarche sui- 
vante (cf. $ 5). Pour des raisons de symétrie, de simplicité des calculs, etc. 
on arrive parfois à restreindre sans perte de généralité la classe des stratégies 
envisagées. Si cette restriction fait apparaître unc stratégie uniformément 
optimale, le problème est résolu ipso facto. Si l’on applique cette approche, 
il faut s'assurer nécessairement que la restriction de la classe des stratégies 
ne nous prive pas de la possibilité d'obtenir une bien meilleure décision. 
Dans les deux paragraphes suivants, on exhibera des exemples d'application 
de cette approche à un objet à vrai dire plus compliqué : aux jeux statisti- 
ques. Le lecteur en a déjà pris connaissance dans les chapitres 2 et 3 où l’on 
a étudié les meilleurs estimateurs dans la sous-classe des estimateurs sans 
biais, et les tests uniformément les plus puissants dans les sous-classes de 
tests invariants ou sans biais. 

3. Stratégies bayésiennes. Elles se présentent dans les cas où le deuxième 
joueur choisit sa stratégie de façon aléatoire avec une certaine distibution 
(connu ou inconnue) sur 6. 

Pour pouvoir étudier dans la suite les stratégies « aléatoires » on admet- 
tra que 6 et D sont munis des tribus naturelles de sous-ensembles ÿe et %2. 
On peut alors définir sur (6, ÿe ) et (D, ÿp ) des distributions Q et x res- 
pectivement, de sorte que (6, %e,Q), (2 Sp, +) seront des espaces 
probabilisés. 

La donnée des distributions + et Q induit l’espace probabilisé (DX 9, 
Spxe, 7 X Q), où Fpxe est une tribu engendrée par les produits directs des 
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ensembles de ÿ2 et Ye. Les tribus #2 et %e doivent être choisies de façon 
à satisfaire les deux conditions suivantes : 

a) $p et ÿo contiennent des singletons {6) et (0). 

b) La fonction de perte w(6, 0) est mesurable par rapport à %p»xe. 

DÉFINITION 3. Les distributions + sur (D, %p) et Q sur (6, %e) seront 
appelées stratégies mixtes ou randomisées respectivement du premier et du 
deuxième joueur. 


La distribution Q sera souvent appelée distribution a priori. Ce terme 
a été expliqué dans les chapitres 2 et 3. Il le sera encore dans le prochain 
paragraphe. 

Désignons par D et à les ensembles de toutes les stratégies mixtes des 
joueurs 1 et 2 (Cest-à-dire les ensembles de toutes les distributions sur (D, 
do) et (6, ÿe)). Vu que Gp et Ge contiennent des singletons, les ensembles 
D et 6 contiendront des distributions concentrées en un point et, par suite, 
on peut admettre qu’ils renferment des stratégies 6 et 9 que l’on appellera 
stratégies pures pour les distinguer des autres. On conviendra, sans crainte 
de confusion, de désigner les distributions de D et Ô concentrées en un 
point Ô ou 8 respectivement par à et 6. 

Les pertes w(x, Q) subies en utilisant les stratégies mixtes se définissent 
par 


Dr, Q) = Esxow(6, 0) = [wlu, t}r(du)Q(dr). (2) 


Donc, conjointement au jeu primitif nous pouvons envisager un jeu (D, 
6, w) de fonction de perte (2) obtenu par moyennisation ou randomisation 
du jeu (D, 9, w). 

Aux termes de la convention adoptée on écrira 


W(TE, Q) = w(Ô, Q), W(r, Q(a) = W(r, 6), 
W(6, 8) = w(ô, 8), 


si rw et Qu sont des distributions concentrées respectivement en à et 6. 

Il est clair que la moyennisation du jeu (D, 6, w) exprime qu'on est 
passé à un jeu dont les ensembles de stratégies sont plus riches et par rap- 
port auquel le couple initial est « plongé » : on obtiendrait ce jeu en consi- 
dérant les seules stratégies pures des deux joueurs. Nous verrons que les pro- 
blèmes d’ordonnancement des stratégies dans les jeux (D, 6, w) et (D, 6, 
w) sont intimement liés. 

DÉFINITION 4. On appelle stratégie bayésienne associée à une distribu- 
tion a priori Q une stratégie x = rQ telle que 


W(rQ, Q) = infw(x, Q). 
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Une stratégie bayésienne n’est donc autre que la meilleure stratégie x 
pour Q donnée dans le jeu moyennisé. 

On appelle stratégie bayésienne pure une stratégie ôQ € D telle que 
W(0Q Q) = infw(r, Q). 


THÉORÈME 1. Si pour une distribution Q donnée, il existe une stratégie 
bayésienne mixte x, il existera aussi une stratégie bayésienne pure 6a telle 
que 


w(ôQ; Q) = W(TQ, Q). 


DÉMONSTRATION. Elle coule presque de source. Désignons a = w(xa, 
Q). Il est clair que 


w(6, Q) 2 infw(6, Q > a. 


Si l’on admet que w(6, Q) > a pour tous les 6, en prenant la moyenne par 
rapport à ô à l’aide de ro, on obtient 


a = [we Q)rao(du) > a. 


Cette contradiction prouve le théorème. < 
Si donc infw(r, Q) est atteint, il le sera sur les stratégies pures. 


Si infw(ô, Q) n’est pas atteint, les stratégies bayésiennes n'existent pas 
ô 


et il est alors utile d’introduire la notion de stratégie e-bayésienne qui existe 
toujours et qui se définit comme une stratégie ôQ pour laquelle 


W(6o, Q) < inf w(6, Q) +e () 


pour e8>0 donné. Mais, dans la suite, pour simplifier l’exposé on circons- 
crira notre étude aux problèmes dans lesquels les stratégies bayésiennes 
existent. 

L'utilisation pratique des stratégies bayésiennes est un problème assez 
délicat. Si l’existence de la distribution a priori est conditionnée par un 
mécanisme physique réel, alors cette approche s’impose d’elle-même. Mais 
l'approche bayésienne a sa raison d’être dans les cas où elle est rattachée à 
des considérations éventuellement subjectives et pas toujours exhaustives 
qui doivent néanmoins être prises en considération. Le problème de l’utili- 
sation de l’approche bayésienne sera examiné plus en détail dans le n° 4. 

4. Stratégies minimax. Si l’on ne dispose pas d’une information a priori 
sur 0, on peut pour ordonner les stratégies partir de « la plus défavorable» 
stratégie de l’adversaire. Si l’on choisit une stratégie 6, les pertes maximales 
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seront 
supw(6, 0) m w(6, Î). (4) 


Cette quantité ne dépend que de ô et permet, de même que w(6, Q) d'’ordon- 
ner 6. 
DÉFINITION S. On dit qu’une stratégie & est minimax si 


w(ô, ?) = infw(8, 1) = w*. (5) 


Le terme « minimax » tient son nom dés opérations du second membre 
de la relation 


w(6, 7) = min max w(6, 0). 


Il est évident que les stratégies minimax, tout comme les stratégies bayé- 
siennes, peuvent en général ne pas exister. Dans ce cas, on peut introduire 
la notion de stratégie e-minimax par analogie à (3). Dans la suite on admet- 
tra que sup et inf sont réalisés dans (4) et (S). 

Etant donné que pour tout ÿ 


w(6, 8) < w(ô, 1) = w*, 


la stratégie minimax 6 fait subir au joueur 1 des pertes au plus égales à w*. 
DÉFINITION 6. Les valeurs 


w* = infw(6, T) (wG; 1) = supw(6, 6), 
ô 0 


We = supw(l, 6) (WG ô) = infw(6, 8) 

8 6 
sont appelées respectivement valeur supérieure et valeur inférieure du jeu. 
Siw* = w,. on dit que /e jeu admet une valeur qui est égale à la valeur com- 
mune w* et We. 

Il est clair de ce qui précède et pour des raisons de symétrie que si le 
joueur 2 adopte la même politique que le joueur 1 et choisit une stratégie 
minimax 6, il peut toujours s’assurer un gain > Ww=. (Il aurait été plus correct 
d’appeler la stratégie 0 stratégie maximin, mais nous lui conserverons sa pre- 
mière appellation.) Donc, si la valeur du jeu existe, en choisissant une stra- 
tégie minimax Ô, on s'assure un résultat qui est inaméliorable en ce sens que 
si l'adversaire opte pour 8, aucune autre stratégie ne nous causera des pertes 
inférieures à we = w*. Il est évident que w(6, 8) = w° = we. 

Dans le cas général, on a toujours w* > w., puisque w(ô, T) > w(6, 
0) > w(i, 9) pour tous les 6 et 9 et par suite 


Ww* = infw(, 1) > supw(}, 0) = Wa. (6) 
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Si w* > ws, On peut améliorer la stratégie minimax 6 en introduisant 
les stratégies mixtes. Ceci constitue l’un des principaux objectifs de ces 
dernières. 

Désignons les stratégies minimax (si elles existent) du jeu moyennisé par 
z et Q respectivement et posons 


Ww* = inf SupPW(r, Q), Ws = SUP infw(x, Q). 


Nous montrerons tout d’abord que les valeurs supérieure et inférieure 
d’un jeu se rapprochent par une moyennisation. 


THÉORÈME 2. w* > W° > We > Ws. 


DÉMONSTRATION. Elle est aussi élémentaire que celle du théorème 1. 
Vu que la randomisation du jeu peut être conduite en deux étapes : d’abord 
sur l’ensemble D et ensuite sur ©, pour prouver ce théorème il suffit d’envi- 
sager seulement le moyennisé partiel (D, ©, w) du jeu (D, 6, w). On a 


w* = inf supw(rx, 0) < inf infw(6, 8) = w*. 
x 0 8 0e 


Puisque pour tous les x 
W(r, 0) = {wu, O)r(du) > infw(6, 8) = w(1l, 0), 


1 vient infw(x, 0) > w({, 0), 
Ws = sup infw(x, 0) > supw(|!, 0) = wa. 
0 + ( 


L'inégalité w* > w« a été prouvée dans (6). Æ 

Le fait fondamental de la théorie des jeux est le théorème de minimax 
qui affirme que sous des conditions assez larges les jeux moyennisés possè- 
dent la valeur w* = w,. et admettent des stratégies minimax. 

Cette proposition sera formulée avec plus de rigueur dans le paragraphe 
prochain dans une situation plus générale pour des jeux statistiques. 

Le jeu initial (D, 6, w) ne possède généralement pas de valeur surtout 
si les ensembles D et 6 sont finis. 

EXEMPLE 1. Considérons un jeu élémentaire dans lequel les ensembles 
D et 6 sont des doubletons : D = {ô1, 2}, © = {61, 62}. Les valeurs de 
la fonction de perte w(ô, 8) définissent une matrice Ilw(6;, 8,)|l, à j = 

0 1 

(: ol 
par exemple le joueur 1 doit deviner dans quelle main le joueur 2 a caché 
une pièce de monnaie. Une réponse juste fournit une perte nulle (w(61, 01)= 
= W(d2, 02) = 0), une réponse fausse, une perte de 1 rouble (w(6:, 82) = 


= ], 2, que nous poserons égale à . Ceci décrit un jeu dans lequel 
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= W(ô2, 01) = 1). Il est évident que dans ce cas w(ô:, ?) = 1, w* = 1, w(l, 
0;) = 0, ws = 0, de sorte que le jeu ne possède pas de valeur et le joueur 
1 ne peut pas s'assurer une perte inférieure à 1 rouble. La notion de stratégie 
minimax est inutile ici. 

Moyennisons ce jeu. Les classes de stratégies À et Ô sont ici les ensem- 
bles de toutes les distributions sur un doubleton. Il est évident que chacune 
des distributions sur D et © est décrite par la probabilité p et g de choix 
respectivement des stratégies 61 et 01. On peut donc admettre que D = 
= [0, 1], Ê = (0, 1]. Les pertes du joueur 1 sont égales ici à 


wW(Z q) PA -— g) + qA -— p) = p + q -— 2pq, 
_ + 1 -— = |] — si 2p < 
ÿ* = 1/2. 


On trouve de façon analogue que wW» = 1/2. Donc le jeu moyennisé pos- 
sède dorénavant une valeur, et en choisissant les stratégies ô1 et 62 avec une 
probabilité p = 1 — p = 1/2, le jouer 1 est assuré de perdre au plus 1/2. 
Cette stratégie ne peut être améliorée, car le joueur 2 s'assure le même gain 
en prenant qg = 1/2. 

Si un jeu moyennisé ne possède pas de valeur (cette situation ne peut 
se présenter que dans les jeux ayant un mécanisme complexe spécial), une 
deuxième moyennisation ne servirait à rien car elle sera pratiquement con- 
fondue avec la première. 

Les approches bayésienne et minimax de résolution des problèmes de 
jeux sont largement répandues dans les activités humaines. L'approche 
bayésienne est basée sur le fait que l’on a une idée au moins approximative 
du comportement qu’adoptera le joueur 2. Le point de vue minimax se jus- 
tifie dans les cas où il faut se prémunir contre des pertes élevées. 

EXEMPLE 2. Un étudiant prépare un examen. On admettra qu’il n’a pas 
suffisamment de temps pour apprendre tout le programme. Par ailleurs son 
objectif est de décrocher la plus haute note possible. 

Dans les conditions ci-dessus cet étudiant ne peut posséder à fond 
qu’une partie des sujets. Il se trouve donc devant l'alternative suivante : 
1) apprendre sur le bout des doigts les seules questions qui sont le plus sou- 
vent posées par l’examinateur ; 2) connaître un peu de tout pour s’assurer 
une note passable. Le premier comportement correspondra à l’approche 
bayésienne, le second, à l’approche minimax. 

Il est clair que la stratégie uniformément optimale consisterait ici à 
apprendre par cœur tout le programme, mais cette stratégie est exclue par 
hypothèse. 
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Dans certaines situations les stratégies minimax ne sont pas toujours les 
plus raisonnables. 


EXEMPLE 3. Supposons que 6 = [0, 1] et que D = {ô1, ô2}. La fonc- 
tion de perte est définie par les relations (fig. 9) 


w(Ôi, 6) = 1, 
w(ô2, 9) = 41 + e)0(1 — 6). 


Ici w(ô1, 1) = 1, w(ô2, T) = 1 +e, w* = 1, et la stratégie minimax sera 
Ô1, bien que la stratégie &: soit la meilleure dans la « majorité » des cas pour 


Fig. 9 


de petits € > 0 : w(ô2,0) < 1 si 8 appartient au domaine |0 - 7 > 
1 € : ; x 
> [+= Les stratégies bayésiennes seront aussi confondues avec 62 
pour la « majorité » des distributions Q sur 6 = [0, 1] (dont la masse n'est 
pas concentrée au voisinage du point 8 = 1/2). 
Les notions de stratégies bayésienne et minimax sont liées entre elles. La 


proposition suivante nous fournit un procédé de recherche des stratégies 
minimax à l’aide de stratégies bayésiennes. 


DÉFINITION 7. On dit qu’une stratégie + est une stratégie niveleuse sur 
un ensemble 6, C 6 si 


1) W(x, 6) = c = const, 4 € Op, 
2) W(x, 0) < c, VO. 
THÉORÈME 3. Supposons qu'existent une distribution a priori Q et la 


stratégie bayésienne correspondante xx qui est une stratégie niveleuse sur 
le support Na de ia distribution Q. Alors x = x est une stratégie minimax. 


Si Na = ©, la stratégie niveleuse x rend « indifférent » le jeu du joueur 
2, c'est-à-dire indépendant de lui (comparer avec l’exempie 1). 
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DÉMONSTRATION du théorème 3. Désignons supw(rx, 0) = wW(x, T), 
inf W(ô, Q) = w(I, Q). Nous devons nous assurer ne 
W(ro, 1) = infw(x, Î). 
Ceci résulte des inégalités suivantes doi sont valables pour tout x : 
(x, 1) > W(x, Q) > w(ro, Q) =[#(rn, DQ() = € > Wrn, 1). 


L'extension suivante du théorème 3 est parfois utile. 

THÉORÈME 3A. Supposons qu'il existe des suites Q, et xo, telles que 
W(TQ» Qn) — c. Supposons par ailleurs qu'il existe une stratégie x telle que 
w(x, 8) < c pour tous les 8. Alors x est une stratégie minimax. 


DÉMONSTRATION. Elle est aussi élémentaire : 
W(x, 1) > W(x, Q@:) > W(ro, Q,) — c. 
Ce qui n’est réalisé que si infw(x, t) > c. Comme c > w(r, ?) le théorème 


est prouvé. : 

La distribution Q qui définit la stratégie bayésienne minimax +Q dans 
le théorème 3 jouit de la remarquable propriété suivante : elle sera la plus 
défavorable en ce sens qu’elle maximise les pertes bayésiennes w(xQ, Q). 

DÉFINITION 8. Une distribution Q est dite /a plus défavorable ou la 
moins bonne si 


W(rQ, Q) — APMrO; Q), 


ou, en d’autres termes, si #(L, Q) = supw({, Q). 
Q 


THÉORÈME 4. Supposons que le jeu (D, 6, w) possède une valeur et 
que les deux joueurs disposent des stratégies minimax + et Q. La distribu- 
tion Q est alors la plus défavorable et x est la stratégie bayésienne x = x, 
qui est associée à Q. 


REMARQUE I. Le fait que le théorème 1 affirme l’existence conjointe- 
ment à +0, d’une stratégie bayésienne pure ôaQ, ne signifie encore pas que 
cette dernière sera minimax aussi. 

REMARQUE 2. D’après le théorème fondamental de minimax, la condi- 
tion du théorème 4 relative à l'existence de la valeur du jeu moyennisé et des 
stratégies minimax ne doit pas être considérée comme une condition 
restrictive. 

Nous aurons besoin de la proposition auxiliaire suivante que nous for- 
mulerons en termes du jeu initial (non moyennisé). 
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LEMME 1. Supposons que le jeu (D, ©, w) possède une valeur et que les 
stratégies minimax Ô et 0 des deux joueurs sont telles que 


w(ô, ?) = infw(6, 1), w(4, 8) = supw(}, 6). 


Alors h LL L 
w(Ôô, 1) = w(ô, 8) = w(1, 8), (7) 


w* = Ww(6, 0) = Wa. (8) 


Réciproquement, si pour certaines stratégies ô, 8 la relation (7) est rem- 
plie, alors la relation (8) le sera aussi et à et 0 seront des stratégies minimax. 


DÉMONSTRATION. Quels que soient ô et # on a 
w(Ô, 1) > w(ô, 8) > w(1, 6). 
D'où L — : 
w* = Ww(ô, T) > w(6, 8) > w(l, 0) = we. (9) 
Vu que w* = w. par hypothèse, tous les signes d’inégalité de (9) doivent 
être remplacés par des signes d'égalité Ce qui prouve (7) et (8). 
Réciproquement, si (7) a lieu, alors 


w* = infw(6, 1) < w(6, 1) = w(l, 0) < supw(}, 0) = we. 


Vu que l’on a toujours w* > ws, les inégalités mentionnées expriment que 
w* = was et les stratégies à et 8 sont minimax. < 

Le point (6, 8) qui jouit de la propriété (7) s’appelle point selle ou col 
et le lemme 1, critère d'existence du col des stratégies minimax 
inaméliorables. 

DÉMONSTRATION du théorème 4. Appliquons le lemme 1 au jeu moyen- 
nisé (D, 6, w). On trouve alors que 


Pr, Q) = w(L, Q) = w. = sup#(l, Q). 


D'où il résulte que la distribution Q est la plus défavorable et que + est une 
stratégie bayésienne correspondant à Q. < 

Les propositions exhibées plus haut peuvent désormais être résumées 
sous la forme du critère suivant de minimax qui décrit de façon complète 
le lien entre les stratégies minimax et les stratégies bayésiennes. 


THÉORÈME 5. Supposons que le jeu (D, , w) admet une valeur et des 
stratégies minimax. Les trois conditions suivantes sont alors équivalentes : 

1) La stratégie x est minimax. 

2) La stratégie x est bayésienne et niveleuse. 

3) La stratégie x est bayésiene et correspond à la distribution la plus 
défavorable Q : x = xa. 
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DÉMONSTRATION. L'implication 2) = 1) a été prouvée dans le théorème 
3 (la condition du théorème S n'est pas exigée pour cela). L'implication 
1) = 3) a été établie dans le théorème 4. Reste à s’assurer que 3) = 2), c’est- 
à-dire que la stratégie bayésienne correspondant à la distribution la plus 
défavorable est niveleuse. On a 


We = W(r, Q) = (w(x, 1)Q(dt) < supw(x, 1) = w*. 


Ce qui exprime que (tr, 1)Q(dt) = supw(r, ft) et par suite 
{ 


W(x, 1) = (x, 1) [Q]-presque partout. 


Etant donné que d’autre part on a toujours W(x, 1) < w(x, ?), il s'ensuit 
que + est une stratégie niveleuse <Æ 

Revenons maintenant à l’application des classes de stratégies envisagées. 
Supposons que l’on n'ait pas réussi à trouver une sous-classe satisfaisante 
de stratégies contenant la stratégie uniformément optimale. Supposons par 
ailleurs que l’on se fait une certaine idée du comportement du joueur 2 
(Cest-à-dire des valeurs prévisibles de 8) mais que ceci ne suffit pas pour 
appliquer l’approche bayésienne à son état pur. L'emploi de la démarche 
minimax dans ces conditions nous priverait de l’information existante. Dans 
une telle situation on peut se servir de l'approche intermédiaire suivante : 

1. Tout d’abord il faut se prémunir contre les pertes élevées, c’est-à-dire 
n'envisager que les stratégies à pour lesquelles w(ô, 4) < w* + a pour une 
valeur a > 0 convenable et quel que soit 8. L'ensemble des stratégies véri- 
fiant cette inégalité sera désigné par Ds. 

2. Dans ce sous-ensemble (c’est-à-dire dans le jeu (Ds, 9, w)) on peut 
déjà appliquer l’approche bayésienne et utiliser les approximations qui nous 
sont accessibles pour la distribution a priori Q. 

Cette approche mixte est constamment utilisée dans la vie courante. 
Dans les conditions de l'exemple 2, cette approche commande à l'étudiant 
d'apprendre un tout petit peu (pour éviter d’être recalé) tout le programme 
ct ensuite de connaître un peu mieux les questions le plus souvent posées. 

L'approche mixte doit comporter une étude mathématique de la stabilité 
des pertes bayésiennes dans le jeu (D, 6, w) pour les variations permises 
de Q. 

S. Classe complète de stratégies. Si les approches décrites ci-dessus ne 
permettent pas de déboucher sur une stratégie unique, on peut limiter la 
résolution du problème à la description de la classe complète des stratégies. 

DÉFINITION 9. Une classe de stratégies D° C D est dite complète si pour 
toute stratégie x € D”, il existe une stratégie ro € D° qui est meilleure que x. 

On dit qu’une classe complète D$ est une classe complète minimale si 
aucune de ses sous-classes n’est complète. 
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En d’autres termes, une classe complète minimale est composée unique- 
ment de stratégies inaméliorables. 

L'utilité de construire une classe complète minimale ou une classe com- 
plète bien plus petite que D saute aux yeux. Cette procédure permet de 
réduire le jeu (D, Ô, w) à un jeu (D°, 6, w) de structure plus simple. 

Le deuxième théorème fondamental de la théorie des jeux affirme que 
sous des hypothèses assez larges, /a classe de toutes les stratégies bayésien- 
nes {ro}, Q € Ô est une classe complète. L'énoncé exact de ce théorème sera 
donné dans le paragraphe suivant. Dans certains cas les classes complètes 
peuvent être construites directement à l’aide de la structure du jeu. Suppo- 
sons par exemple qu’il existe une partition de l’espace D en sous-ensembles 
D», D = U Dp, Dry # Di, bi # b2, telle que chacun d'eux (C'est-à-dire 


pour les jeux (Ds, 6, w)) contienne une stratégie uniformément optimale 
ôb € De. Il est clair que dans ce cas la classe D° = {ô»}pes sera complète. 
Ce point de vue sur la construction d’une classe complète sera illustré dans 
le $ 3. 


$ 3. Jeux statistiques 


1. Description des jeux statistiques. Les principaux éléments d’un jeu 
statistique sont engendrés par le triplet (D, 6, w) étudié dans le paragraphe 
précédent. Mais il faut leur ajouter ce qui suit : 

1) Dans les jeux statistiques le joueur 1 est le satisticien (le chercheur), 
le joueur 2 est la nature (plus exactement la nature du phénomène étudié). 
Cette dernière choisit le paramètre (la stratégie) 8 qui nous est inconnu et 
qui définit l’état de l’objet étudié. La plupart des problèmes de statistique 
mathématique sont liés d’une manière ou d’une autre à la prise de décisions 
ô qui « devinent » le plus exactement possible l’inconnue 8. Ceci étant, on 
aura présent à l'esprit que la nature n’aspire pas au gain maximal (Cest-à- 
dire n’aspire pas à nous causer le plus grand tort) et de ce point de vue est 
un joueur «indifférent » au choix de ses stratégies. 

2) Dans les jeux statistiques, nous avons la possibilité de «sonder » la 
stratégie de la nature par des expériences qui nous fourniront sous forme 
d’un échantillon X € Pe des « renseignements » sur la valeur éventuelle 6. 
Ainsi l'échantillon X de taille *) n distribué suivant la loi P, qui dépend de 
8 est un élément du jeu statistique. : 

Dans ces conditions, la décision ô doit de toute évidence être choisie en 
fonction de X. Les stratégies du statisticien sont maintenant toutes les fonc- 


*) Dans les constructions de ce paragraphe on aurait pu sans perdre en généralité admettre 
que ñ7 = 1. Mais nous envisagerons un échantillon de taille ñn pour conserver les liens élémen- 
taires avec les résultats des chapitres précédents et des paragraphes 6, 7 et 8 suivants. 

Une conception plus générale du jeu statistique fait intervenir un échantillon illimité 
Xe = (Xi, X2,...) dont chaque élément x, est lié à des pertes €, > 0 (cf. [54]). 
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tions ô(4) de 2” dans D. Les fonctions ô(X) s’appellent fonctions de déci- 
sion ou règles de décision ou tout simplement décisions. On se bornera à 
étudier des applications mesurables ô(X) de (27, 82) dans (D, Yo). 
L'ensemble de ces applications sera désigné par ©. 

L'ensemble © des stratégies du joueur 2 (la nature) reste le même. 

Si nous choisissons la décision ô(X), et la nature, la valeur 9, nos pertes 
seront w(ô(X), 8). On reconnaît ici une variable aléatoire. Cette situation 
n’est pas commode et pour l’éviter on prend naturellement pour pertes atta- 
chées à la stratégie à = ô(-) € © et à 0 € © la valeur de l’espérance 
mathématique 

WC), 8) = Eow(G(X), 6) = [w(ô(x), 8)Po(dx), (1) 


qui porte le nom de fonction de risque (l'apparition du mot « risque » est 
logique, puisque l’utilisation de ô(-) nous fournit un résultat aléatoire). Si 
la condition (4,), qui préconise que la distribution P, admet une densité 
fe(x) par rapport à une mesure o-finie u, est remplie, la fonction de risque 
peut être mise sous la forme 


W{(G(-), 8) = [w(ô(x), )fe(x)x”" (dx). 


Nous pouvons maintenant donner la définition suivante. 

DÉFINITION 1. On appelle jeu statistique le triplet (Z, 6, W), où 6 est 
l'ensemble des stratégies de la nature, Z, l’ensemble de toutes les applica- 
tions mesurables de l’espace 2” dans l’ensemble D W est définie dans (1). 
Pour caractériser plus complètement le jeu statistique, on peut donner en 
plus du triplet (Z, 6, W) le couple (X, P:), où X € Pa. 

EXEMPLE 1. Supposons que 8 € [0, 1] définit le taux d’un composé chi- 
mique d’un minerai destiné à la fonte. Si nous décidons que le taux de ce 
composé est égal à à x 8 et que la fonte soit conduite en fonction de cette 
décision, le métal obtenu sera de moindre qualité que pour à = @ et les 
dépenses d'énergie plus élevées. En d’autres termes, nous subirons des pertes 
w(ô, 0) qui seront d’autant plus élevées que l’écart de 6 à 9 sera grand. Sup- 
posons pour simplifier que w(6, 8) est proportionnelle au carré de l’écart de 


5à0: | 
w(8, 8) = c( — 0). 


(Si la fonction w(6, 8) est régulière et si l’on se place dans un voisinage de 
la droite ô = 6, la seule façon de simplifier le problème est d'admettre 
l'indépendance de c par rapport à 8.) On obtient alors un jeu (D, 6, w) dans 
lequel D = [0, 1] et 6 = [0, 1] 

co’ si ô > 1/2, 


w(Ôô, T) = sup w(6, 0) = Fa = ô)? si Ô < 1/2, 


w* = infw(6, 1) = w(1/2, T) = c/4. 
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La stratégie Ô = 1/2 est donc minimax et garantit des pertes < c/4. Ce 
jeu est sans valeur, puisque ws = 0. La moyennisation du jeu n’améliore 
pas la stratégie minimax Ô = 1/2 (elle fournit un wWs« = c/4). Nous laissons 
au lecteur le soin de s'assurer que la stratégie bayésienne ôQ est ici de la 
forme ôQ = El = {Q(ar) (ceci résulte des égalités (5, Q) = cEq(ô — 
— 0)? = cEo(8 — Ed6) +cEo(ô — Eoô)”) et que la distribution Q la plus 
défavorable sera de la forme Q({0}) = Q({1}) = 1/2. Il est évident que 
la stratégie bayésienne correspondante est ôn = 1/2. 

Supposons maintenant que le minerai n’est pas homogène et que l’on a 
la possibilité d’en analyser #7 échantillons. Ces échantillons sont prélevés de 
telle sorte que les résultats de l’analyse sont aléatoires et nous fournissent 
des valeurs indépendantes (x1, ...,xXn) = À à propos desquelles on sait que 
Ex; = 0, Vx; = b(0). Dans ce cas tous les estimateurs 0* = 6(X) du paramè- 
tre 0 au vu de l’échantillon X seront les décisions 6(X). Le risque de la déci- 
sion Ô(X) sera égal à 


W(6, 6) _ cEs(ô(x) me 0)’, 


et nous sommes conduits à la recherche de l’estimateur 8* = ô(X) minimi- 
sant ce risque dans un certain sens. Si l’on pose par exemple ô,(4) = x, on 
obtient 


WG, 9) = 20. Q) 


Le maximum de b(8) est égal à 8(1 — 0) et il est atteint sur la distribution 
de x, concentrée en 0 et 1. Vu qu’il est possible d’exclure cette éventualité, 


on a 
b(6) < 8(1 — 6) < 1/4, W(61, 0) < c/4n. 


Donc, même pour #7 = 1 on obtient avec une stratégie que n’est pas éven- 
tuellement la meilleure un résultat meilleur qu’avec une stratégie minimax 
dans le jeu sans échantillon. La relation (2) montre également que le risque 
converge vers 0 lorsque 7 —+ ©. <Æ 

De la définition du jeu statistique, il ressort que le dernier jeu possède 
un ensemble © de stratégies qui est bien plus riche que pour le jeu initial 
(D, 6, w). 

Comme dans le $ 2, conjointement au jeu (2, 6, W) dont les stratégies 
seront appelées pures, on peut envisager des jeux randomisés ou mixtes 
(®, 6, W). L ensemble Ÿ est celui des applications (X) : 27 —+ D. Ces 
applications doivent être telles que les valeurs 

W(x(2), 8) = [wlu, O)x(X, du) 
D 
soient aléatoires (x(X, À) est la probabilité de l’ensemble À € D conformé- 
ment à la règle de décision +). On pose par définition 
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W(r(), Q) = | | (we Pr, du)P(dx)Q(ar). 


6147)D 


La stratégie x(X) s'appelle décision randomisée. 

Les relations d'ordre partiel sur les stratégies, les stratégies uniformé- 
ment les meilleures, les stratégies bayésiennes et minimax, les classes com- 
plètes de stratégies pour les jeux statistiques se définissent exactement 
comme pour les jeux ordinaires (en remplaçant D par © et les fonctions w 
et w par Wet W), 

Les théorèmes 2.1 à 2.5 se généralisent intégralement aux jeux statisti- 
ques, puisque ces derniers ne dépendent pas de la nature de l’ensemble D. 

2. Classification des jeux statistiques. La classification suivante des jeux 
statistiques est liée à la nature des ensembles D et 6 : 

1) Si 0 = À, D = À, où À est un sous-ensemble « solide » de R* (par 
exemple un parallélépipède), w(£, ft) = 0, w(t, u) > 0 pour t * u, on obtient 
des problèmes d’estimation ponctuelle du paramètre inconnu 6. 

2) Si les ensembles 6 = {6:,...,0,] et D = {61, . . ., 6,} sont finis 
et contiennent le même nombre d’éléments, w(ô;, 8;) = 0, w(6;, 8;) > 0 pour 
i # j, on obtient des problèmes de test d’un nombre fini d’hypothèses 
simples. 

3) Si © est un domaine « solide » de R*, D = {ô1, 2} est un doubleton, 
Ww(61, 0) = 0 si 0 € O1, w(ô2, 0) = 0 si 8 € 62 (8611 62 = OO) et w(6; 
0) > 0 dans les autres cas, on est alors conduit à un problème de test des 
hypothèses {9 € 6} et {0 € @2). 

Il existe certes d’autres classes de problèmes, mais nous avons distingué 
ces trois types parce qu’ils ont étés étudié dans les chapitres 2 et 3. Ces pro- 
blèmes ont été envisagés d’un point de vue purement « statistique » impli- 
quant un choix spécial des fonctions w(6ô, 8) : les pertes ont été définies dans 
le premier groupe de problèmes par l’écart quadratique moyen, d’où la fonc- 
tion de perte w(ô, 8) = (ô — 8)° ; dans le deuxième groupe, par la probabi- 
lité d’erreur, d’où la fonction de perte 


_ (0, 5 = J 
W(Ôi, 0;) hs i Â j. 
Idem pour le troisième groupe dans lequel 


0 si 0€ 6:, 
w(ôr, 0) = h si 0 € O2, 
1 si 0€ 6:, 
ROSE {o si 8 € O2. 


Ces fonctions de perte qui correspondent au point de vue purement sta- 
tistique seront dites sfatistiques. 
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Cette classification montre qu’il n’y a aucune différence de principe 
entre les problèmes de théorie de l’estimation et de théorie des tests d’hypo- 
thèses statistiques. Tout est dans la nature des ensembles 6 et D et dans la 
forme des fonctions de perte. 

Profitons de cette classification pour signaler un trait spécifique des 
jeux statistiques (en complément aux n°” 1) et 2) de ce paragraphe) : 
l’ensemble D des jeux statistiques soit est confondu avec 6, soit est un 
ensemble moins riche que 6. 

3. Deux théorèmes fondamentaux de théorie des jeux statistiques. 
Enonçons maintenant les résultats fondamentaux de la théorie des jeux sta- 
tistiques. Nous avons déjà signalé que les théorèmes 2.1 à 2.5 se générali- 
saient aux jeux statistiques, car non liés à la nature de ces derniers. Pour 
établir les deux théorèmes fondamentaux mentionnés dans le $ 2, nous 
aurons besoin de quelques conditions qui ne sont pas les plus générales (ce 
qui compliquerait énormément l’énoncé et la démonstration) mais qui sont 
tout de même assez larges pour englober les problèmes les plus intéressants 
et les plus profonds et, en particulier, les problèmes envisagés dans les cha- 
pitres 2 et 3. 


CONDITION (A). Chacun des ensembles @ et D est ou bien fini ou bien 
un compact de R*. 


Comme déjà signalé le cas où @ est fini et D C R“ peut ne pas être 
traité Dans les trois autres cas, on admettra que la fonction de perte 
w(6, 0) satisfait la condition suivante. 


CONDITION (B). 

1) Si D C Re 6 C R, la fonction w(6ô, 8) est continue sur D X ©. 

2) Sie C R“ et D = {ü1,..., 6} est fini, chacune des r fonctions w(5, 
0),i = 1,..., 7 est continue sur ©. 

Si O = {61, ..., 6,} et D = {ü:1, . .., ô,) sont finis, les fonctions 
W(ôi, 0;), à j = 1, ...,r, peuvent prendre des valeurs quelconques. 

Nous exigerons de plus que soit remplie la 


CONDITION (C). Nous disposons d’un échantillon X € Pa distribué sui- 
vant une loi Ps absolument continue pour tous les 0 par rapport à une 


mesure o-finie u. Si O C R*, la densité 09 = fe(x) est continue dans 


L1(Z, 8, x) par rapport à 6, c'est-à-dire que lorsque 0 — 0 
[Lemtx) — fo Iu(dx) — 0. (3) 


Il est immédiat de vérifier que la continuité ordinaire de fe(x) par rap- 
port à 0 pour {y}-presque tous les x entraîne la continuité (3). 
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THÉORÈME 1. Si les conditions (A), (B) er (C) sont réunies, le jeu 
moyen (D, 8, W) possède une valeur et des stratégies minimax x(X) et Q : 


Wr(), ?) = infW(x(.), 1), W(L, Q) = sup #4, Q). 


Des théorèmes 2.4 et 2.5 du paragraphe précédent on sait que Q est la 
distribution la plus défavorable, 


Wi(ra(:), Q) = sup Wi(ra(:), Q) = sup #4, Q), 


et x(X) = ro(X) est une stratégie bayésienne associée à Q. 

__ On sait également qu’une condition nécessaire et suffisante pour que 
r(X) soit minimax (cf. théorème 2.5) est qu’elle soit bayésienne : (4) = 
= +Q(*) pour une distribution a priori Q et 


W(r(-), 8) = c = const Q-presque partout, 
W{x(.), 8) < c. 


Ce critère minimax a été utilisé à maintes reprises et dans des situations par- 
ticulières différentes (cf. $S$ 2.11, 3.1, 3.5, 3.9). 


THÉORÈME 2. Si les conditions (A), (B) et (C) sont remplies, la classe 
de toutes les stratégies bayésiennes est complète. 


Dans l’annexe VIII, on démontre les théorèmes 1 et 2 dans leur forme 
plus générale où D et © sont des espaces métriques compacts (condition 
(A)) ; la fonction w(6, 0) : D x 6 — Rest continue par rapport à ô et 8 
pour les métriques correspondantes (condition (B)) ; la distribution P, est 
continue par rapport à 0 en variation (condition (C)). 

Les démonstrations des théorèmes 1 et 2 sous certaines conditions acces- 
soires sont accessibles dans [86]. Pour les cas où D et 6 sont finis, ces 
démonstrations figurent dans [7] et [89]. On peut trouver ibidem un exposé 
relativement complet des éléments de théorie générale des jeux statistiques 
(et en particulier une discussion de quelques cas de construction de la classe 
complète minimale ; cf. [89]). 

Les théorèmes 1 et 2 soulignent toute l’importance de la description de 
la classe des décisions bayésiennes. Cette description fait l’objet du paragra- 
phe suivant. 


$ 4. Principe de Bayes. Classe complète de décisions 


Nous savons que le jeu statistique est de par sa construction un objet 
plus compliqué que le jeu initial (D, 6, w). Pour ce dernier la recherche des 
stratégies minimax et bayésiennes peut être relativement aisée notamment 


$ 4] PRINCIPE DE BAYES. CLASSE COMPLÈTE DE DÉCISIONS 507 


dans le cas où les ensembles D et © sont de forme simple (par exemple 
finis). Dans le même temps, les jeux statistiques, même les plus élémentai- 
res, présentent des ensembles de nature assez complexe, ce qui complique 
sensiblement leur étude s’ils sont traités comme des jeux ordinaires. 

EXEMPLE 1. Soient D = {ô1, 82}, 6 = {01, 82} des doubletons, w(6;, 
0;) = wy, wi = 0, à j = 1, 2. Supposons que Q = (g, 1 — g)est une distri- 
bution a priori sur ©. Alors 


W(ôi, Q) = qwa + (1 — qg)wa. 
Donc, la stratégie bayésienne xQ est de la forme 


_ (62) _ f si W(Ô:, Q) < W(Ô2, Q) (qw21 > (1 je q)Ww12), ! 
Q 1 si W(ô2, Q) < W(ô1, Q) (gwa1 < (1 — q)wu2) () 
(xQ(ûi) est la probabilité d’acceptation de 6;). 

Si 


W(ô1, Q) = w(ô2, Q), (2) 


ou, ce qui est équivalent, g = q = W12/(Wi2 + Wa1), on peut prendre pour 
+Q n’importe quelle distribution + sur l’ensemble { 61, 2}. De façon exacte- 
ment analogue, on peut toujours trouver une distribution x = (p, 1 — p) 
telle que 


W(r, 01) = W(r, 02) OU DPWi12 — (1 _ P)Ww21. 


La solution p = w21/(W21 + w12) de cette équation correspond de toute évi- 
dence à la stratégie bayésienne niveleuse xQ, Q = (g, 1 — q) qui sera mini- 
max en vertu des théorèmes 2.4 et 2.5. La distribution Q sera la plus 
défavorable. 

Nous voyons que la « résolution » de ce problème est relativement sim- 
ple. Si l'on passe au jeu statistique, même dans le cas élémentaire où w12 = 
= Ww21 = 1, on obtient un problème sur les tests minimax et bayésiens dont 
l'étude a nécessité deux paragraphes : 3.1 et 3.2. 

Le fait remarquable de ce paragraphe est que la recherche des stratégies 
bayésiennes (donc de la classe complète des stratégies minimax) pour les 
Jeux statistiques peut être ramenée à celle des mêmes éléments pour les jeux 
initiaux (D, 9, w). Cette réduction s'appuie sur la proposition suivante que 
nous appellerons principe de Bayes. Supposons comme précédemment que 


Jo(X) = IL Jet) 


est la fonction de vraisemblance de l’échantillon X ; c’est aussi la densité de 
X dans 2" par rapport à 4". Supposons par ailleurs que la distribution a 
priori Q sur (6, %e) admet la densité g(f) par rapport à une mesure X (il 
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est évident que ce n’est pas une restriction). Alors, d’après le $ 2.11, la fonc- 
tion f(x ft) = q(t}f.(x) sera la densité de la distribution conjointe de 
(X, 8) dans 27 x 6. Ceci exprime que la fonction 


aix) = OL. (3) 


OR TOTONCO) 


définit la densité conditionnelle de 8 sachant que X = x. Cette densité cor- 
respond à la distribution a posteriori Q, de la variable aléatoire 8 sachant 
que X = x. La relation (3) s'appelle formule de Bayes (cf. 8$ 2.10, 2.11). 


THÉORÈME 1 (principe de Bayes). Supposons que la condition (A,) est 
remplie, que la distribution a priori Q sur © admet q(t) pour densité et que 
Qx est la distribution a posteriori de densité (3) correspondant à Q. Suppo- 
sons par ailleurs que le jeu initial (D, 6, w) admet une stratégie bayésienne 
7Q Pour toute distribution a priori Q. Alors le jeu statistique (%, 6, W) 
admet une stratégie bayésienne xQ(X) correspondant à la distribution Q qui 
est confondue avec +0. Stratégie bayésienne du jeu initial associée à la 
distribution a posteriori Qx. 


La proposition de ce théorème peut être exprimée par une seule égalité : 
aQ(X) = To. 


Elle ramène le problème posé à la détermination de la distribution a poste- 
riori Qx et à la recherche des stratégies bayésiennes pour le jeu initial. 

Le théorème 1 est capital pour l’appréhension du mécanisme de 
l'influence de l’information extraite de l’échantillon sur le choix de la straté- 
gie optimale. L'information a priori fournie par la distribution Q sur 6 est 
constamment modifiée par les données expérimentales. La stratégie opti- 
male sera celle qui tient compte de cette modification de la manière sui- 
vante : il faut prendre la stratégie optimale du jeu initial qui correspond non 
plus à Q mais à Qx. 


DÉMONSTRATION du théorème 1. On a 
Wat), Q) = | À #(r(x), D f(xa"(dx)g( Ad") = 


6 .7" 


= [Ar dx) (w(rG), HqUIA GP). (4) 


? e 


On s’est servi de (3). Le changement d’ordre d’intégration est licite, puisque 
l’intégrant est une fonction positive. La deuxième intégrale du dernier mem- 
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bre de (4) n’est autre que w(A(x), Q-). Or pour tout x, on a 
Wr(x), Q,) > Wror, Qi) = [W(ro@, DaGIx)A(dt). 
6 


En portant cette inégalité dans (4) et en revenant à l’ordre initial d’intégra- 
tion, on obtient 
Wer(), © > [SG (dx) (W(ro, DqGIx)A (I) = Wire, Q). 


PA e 
Ce qui exprime, puisque +r(x) est arbitraire ici, que 
AQ(x) = ro < 


REMARQUE 1. En toute rigueur on devrait conjecturer la mesurabilité de 
la fonction w(rQ,, f) par rapport à 8” X ÿe. Mais on peut lever cette res- 
triction dans la mesure où elle revêt un caractère purement technique et est 
superflue lorsque les conditions (A), (B), (C) du $ 3 sont remplies. Le lec- 
teur peut vérifier seul la dernière assertion en se servant du fait que si D 
et © sont discrets, cette mesurabilité s'établit de façon évidente, et que si les 
conditions (A) et (B) sont réunies, un jeu arbitraire peut être « approché » 
d’aussi près que l’on veut par un jeu discret. 

Si l’on retourne à l'exemple 1, on peut maintenant s'appuyer sur le théo- 
rème 1 et indiquer aussitôt la forme des stratégies bayésiennes pour le jeu 
statistique correspondant. Plus exactement, de (1) on déduit 


s dgfe1(X) W12 
= Hd fo (x) + (À — g}fe2(X) ACTES 
AQx(à2) = ve 
1 si x < We me (5) 
Si 
- Wi12 
MTE RTE ” 


pour +ror On peut prendre n’importe quelle distribution sur {ô1, &}. L'iné- 
galité (S) peut alors s’écrire 


Jo: (X) af —- qg) W12 
Je2(X) d g( — a)° ch Wi2 + Wa (D) 


On reconnaît ici le test du rapport de vraisemblance. 
Par ailleurs 


W{(ro..6;) — WuiEo;Trox(èi) Tr W2,E0;,rQx (82), j — ; 2. 
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Supposons pour simplifier que l'égalité (6) est réalisée avec une 
Pe;-probabilité nulle, de sorte que la stratégie bayésienne sera pure avec une 
P,;-probabilité égale à 1, j = 1, 2. Alors 


Ero) — P(7 0 © = 9) 
Wixo, 01) = waPe, fat) © aQ — 9) 


Je2(X) g(1 — a) J” 
= Jo(X) a(] RE 2) 
Wiro, 02) = w12P Se). 
LE D (FR qi — a) 
De là on déduit sans peine la valeur g correspondant à la distribution la plus 


défavorable Q pour laquelle la stratégie ox Sera niveleuse, c’est-à-dire telle 
que 


W(ro, 61) — W(ra,., 62). 


Cette stratégie sera minimax en vertu des théorèmes 2.4 et 2.5. 

Nous laissons au lecteur le soin de généraliser cette procédure de recher- 
che d’une stratégie minimax au cas où les P4,- ou Ps.,-distributions de 
Je1()/fe2(X) contiennent une composante discrète. 

En s'appuyant sur le théorème 1, on peut de façon analogue généraliser 
les résultats des $$ 3.1 et 3.2 au cas d’ensembles D et © finis arbitraires et 
d’une fonction de perte arbitraire w(ô;, 8;) = w:;; que l’on pourra appeler 
aussi matrice des pertes |lw(ô;, 4;)1l. (Dans les $$ 3.1 et 3.2, nous avons envi- 
sagé le cas particulier wy; = 1 pour i *# j.) Si les w;; sont arbitraires, la déci- 
sion bayésienne sera de la forme suivante. Supposons que Q = (q(81), ... 

. q(6,)), Qx = (gx(61), ... qx(8;)), 


q (8;)f (J (À) | 
> qi) fait X) 


! 


gx(6;) = 


r 


Alors W(ô;, Qx) = >, wygx(6;) et par suite 


Jz=i 
AQxuUÔk) = 1 Si W(ôk, Qx) < W(i, Qx), vi, 
ou ce qui est équivalent si 
>, mo (X)q(6;) < 2, wife; (X)q(6;). 
j=i j=1 
S'il existe quelques valeurs # ( que l’on désignera par K1, ..., K.) jouissant 


de cette propriété, pour stratégie bayésienne xQ, On peut prendre n’importe 
quelle distribution sur {ôx,, ..., Ôôk,). 
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La recherche d’une stratégie minimax se déroule comme suit. Suppo- 
sons, toujours par souci de simplicité, que les Ps;-distributions de w(ô;, Qx) 
ne possèdent pas de composantes discrètes. Alors 


Wiro., 6j) = 2 wyPe;(W(Gi, Qx) < min W(Ôr, Qx)). 


Le théorème 3.1 affirme qu’il existe une distribution Q = (q{&i), 
.… 4(6r)) pour laquelle la stratégie 04 nivellera les valeurs de W(xa, 6;) 
pour tous les j. Cette stratégie sera justement une stratégie minimax. 

En s'appuyant sur les raisonnements précédents et sur le théorème 3.2, 
on détermine aussi sans peine la forme de la classe complète des stratégies 
du jeu statistique (7, 9, W) lorsque D et @ sont finis. 

Considérons les stratégies ro, qui sont les distributions sur les ôx,, ... 
.. Ôk, pour lesquelles 


run (Em, ; = Wie) @) = (0. 


La classe de ces stratégies (bayésiennes), obtenue en faisant prendre à 
q(61), ..., g(6,) toutes les valeurs possibles, sera une classe complète. Nous 
avons vu que pour r = 2, cette classe est très simple et étroite (cf. (7)) : elle 
est constituée des décisions r(4) = (x(X, ô:), r(X, 62)), où +(X, à) sont 
les probabilités d'acceptation de la décision 6; 


1 si RM > c, 
FX, à) = 4PpELO, 1] si RM) = c, 
0 si RM < c, 
(8) 
RO = JA 5 gcc. 


Dans les jeux où les ensembles D et 6 ont la puissance du continu, on 
peut trouver les décisions sous leur forme explicite pour certaines fonctions 
de pertes importantes. Supposons par exemple que D et © sont des domai- 
nes de R“ et que la fonction de perte est quadratique : 


k 
w(6, 0) = clô — 87 = c 216 — 6, (9) 
jui 


où à; et 8; sont les coordonnées de 6 et de 8. Alors 
(6, Q) = cflô — rQ(ar) = cEolô — 6f. 


Nous savons que cette expression atteint son minimum pour Ô = Eoô = 
- [rQ(ar). Ceci est visiblement la stratégie bayésienne ôQ = Ed. De là et 
du principe de Bayes, il résulte que dans un jeu statistique la stratégie bayé- 
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sienne ÔQ(X) = 6 sera de la forme 


08 = 5x = | tQx(dt) = | tq(t| XX (dt). (10) 
Rk R& 
Ce résultat a déjà été établi dans le chapitre 2. 

Le risque de la stratégie 04 est égal à W(68, 0) = cEel08 — 0/7. La distri- 
bution a priori Q pour laquelle Eo|6$% — 0|? = const nous donne l’estima- 
teur minimax 8* = ô4(%). On trouvera dans le $ 2.11 des exemples de cons- 
truction d’estimateurs minimax. 

La classe des estimateurs (10), où Q parcourt toutes les distributions sur 
6, est une classe complète. 

Considérons maintenant un autre cas particulier de fonction de perte 


w(ô, 9) = clô — 8] (11) 
et supposons que 6 = R, D = R. Alors 
W(ô, Q) = cEQlô - 8] = c[lô — #|Q(ar) = 


ô © 


= C f (ô — 1)Q(dt) + cu — 6)Q(dt). 
ô 


En intégrant par parties et en posant F(f) = Q(-, D, on trouve 
w(ô, Q) = c Î (Ô — t)dF{t) — c | (t — ô)d{(i — F{(t)) = 
ô 


- 0 A . 
= e| | Fat + [( - FOI | 
- © ô 

La dérivée de cette expression par rapport à à existe presque partout et vaut 

c[2F(ê) — 1]. Cette fonction est monotone croissante et change de signe au 

point à qui est égal à la médiane de la distribution F : F(ô — 0) < 1/2, 

F(ô + 0) > 1/2. D'où il résulte que w(6, Q) est convexe par rapport à à et 
présente un minimum au point 6. 

D’après le principe de Bayes, ceci exprime que /a médiane de la distribu- 
tion a posteriori QX sera l'estimateur bayésien 06$ = 5Q(X) pour la distribu- 
tion a priori Q et la fonction de perte (11). Ceci nous permet, comme dans 
le cas (9), de trouver la décision minimax et la classe complète. 

On pourrait traiter de façon analogue le cas 

w(6, 8) = clô — 8], & > 0. 

Signalons en conclusion de ce paragraphe que la fonction de perte qua- 
dratique (9) pour c = 1 et des ensembles D et © ayant la puissance du con- 
tinu, et la fonction de perte 


La 2) 
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pour D et @ finis occupent une place particulière en théorie des jeux statisti- 
ques. Les fonctions de risque correspondantes se transforment respective- 
ment en la somme de la variance et du carré du biais de l’estimateur si D 
et © ont la puissance du continu et en la probabilité de se tromper, si D et 
6 sont finis. Ces caractéristiques qui sont naturelles en soi nous ont servi 
de base pour choisir les décisions optimales dans les chapitres 2, 3 et 4. Si 
le jeu statistique ne contient aucune indication quant à la forme de la fonc- 
tion w(6, 8), alors le plus souvent on prend pour telle la fonction (9) ou la 
fonction (12). Nous avons convenu de les appeler fonctions de perte 
statistiques. 


$ S. Exhaustivité, absence de biais, invariance 


Les principes d’exhaustivité, d'absence de biais et d’invariance nous ser- 
vent à restreindre la classe des décisions. Ces principes nous commandent 
de prendre pour décisions uniquement des décisions respectivement exhaus- 
tives, sans biais et invariantes. L'utilisation de l’un, de deux ou des trois 
principes (quand cela est possible) nous permet dans bien des cas de res- 
treindre la classe des stratégies envisagées à un point tel que son intersection 
avec la classe complète comprend une seule décision. Ceci exprime que la 
sous-classe ainsi définie contiendra la stratégie uniformément la meilleure 
(comparer avec le n°1 du $ 2), donc que le problème de choix d’une décision 
est résolu. 

Ces principes sont assez naturels et nous les avons discutés dans divers 
problèmes concrets dans les chapitres 2 ct 3. 

Le plus indiscutable d’entre eux est le principe d’exhaustivité, principe 
qui n’est souvent qu’un procédé de description d’une classe complète. 

1. Exhaustivité Supposons qu'est remplie la condition (A,) et qu’il 
existe une statistique exhaustive S, c’est-à-dire (cf. $ 2.12) 


Je(X) = Y(@, S) - AA). 


Supposons par ailleurs qu’une distribution a priori Q possède une densité 
g(®) par rapport à une mesure À. Alors en vertu du principe de Bayes la stra- 
tégie bayésienne sera entièrement définie par la densité a posteriori 
{ à LT CAEN 
au = — LCD L _ a@ D 
(a) AAA (du) (qtu)t, SX(du) 

qui dépend uniquement de S. Vu que toute distribution Q admet une den- 
sité par rapport à une mesure À convenablement choisie (on peut par exem- 
ple poser À = Q, q(f) = 1), ce qui vient d’être dit exprime que toutes les 
décisions bayésiennes rQ(%) seront des fonctions uniquement de S : 


AQ(X) = pa(S). 


33—4195 
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En d’autres termes, aucune stratégie bayésienne xQ(X) ne dépend de X pour 
S fixe. 

Supposons maintenant que sont remplies les conditions (A), (B) et (C) 
du $ 3. La proposition ci-dessus sera valable aussi pour les stratégies mini- 
max. Elle exprimera également que toutes les décisions qui sont fonctions 
uniquement de S (c’est-à-dire toutes les applications mesurables de S — D, 
où S est l’ensemble des valeurs de S) forment une classe complète ,. Ceci 
résulte du fait que Z, contient toutes les stratégies bayésienneS‘qui, on le 
sait, forment une classe complète. Il est évident que la classe Z, sera la 
plus petite pour la statistique exhaustive minimale S. 

Il est clair que la classe complète minimale ne renferme pas toutes les 
fonctions de S (à valeurs dans D), mais une faible partie seulement. Ce fait 
est corroboré par la formule (1) d’où il s'ensuit, par exemple, que pour les 
doubletons D et © (cf. (4.8)) la classe complète est constituée des fonctions 
+(X) pour lesquelles la probabilité x(X, ô:1) d'acceptation de la décision 6: 
a la forme de l’indicateur de l’ensemble { R(X) > c}, où R(X) = Yÿ(6:, 
S)/#(802, S) (pour plus de précision voir (4.8)). 

Si D C R“,6 C R“,et la fonction de perte w(ô, 8) est de la forme w(6, 
8) = w(ô — 8), où w(u) est une fonction convexe dans R*, on peut conférer 
au principe d’exhaustivité une forme constructive qui permet de caractériser 
efficacement la classe complète. Plus exactement, on a la généralisation sui- 
vante du théorème 2.14.1. 


THÉORÈME 1 (Blackwell). Pour toute décision (estimateur) 0 = ôü(X), 
il existe un estimateur 
0% = E:(0*]S) 


(0% est indépendant de 6, puisque S est exhaustive) qui est aussi bon que 
0*, Plus exactement, pour tout 8 € 6 


Eow(0$ — 0) < Eow(0* — 0). 


DÉMONSTRATION. On a l'inégalité de Jensen suivante (cf. $ 2.9) : si g 
est une fonction convexe dans R*, £ une variable aléatoire à valeurs dans 
R“ et % une sous-tribu de la tribu principale, alors 


EG(15) > 8(E(ES )). 
Cette inégalité entraine 
Eow(8* — 0) = Es{Eo(w(8* — 8)/S)} 2 
> Eow(Eo(0* — 0)S)) = Eow(08 — 8). < 


Si la statistique exhaustive S est complète, le théorème 1 combiné au 
principe d'absence de biais nous permet de définir de façon unique l’estima- 
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teur uniformément le meilleur. En effet, soit Ko la classe des estimateurs 
sans biais 0* = Ô(X) : 


E,0* = 0 pour 6* € Ko. 


En reprenant ad litteram les raisonnements du $ 2.14 (théorème 3) on 
s'assure alors que 8? = Es(8*|S) sont confondus pour tous les 8* € K% et, 
par suite, l’intersection de X% et de la classe complète est composée d’un seul 
estimateur de w(S) qui sera naturellement appelé efficace. 

De ce qui précède il est évident que les estimateurs efficaces, s'ils exis- 
tent, seront les mêmes pour toute fonction de perte convexe w(ê — 8). Ceci 
permet d’appliquer à une telle fonction de perte tous les théorèmes respec- 
tifs établis dans le chapitre 2 pour w(u) = u°. 

Ces raisonnements montrent tout le parti que l’on peut tirer de l’applica- 
tion simultanée des principes d’exhaustivité et d'absence de biais. 

2. Absence de biais. Nous venons tout juste de voir quel rôle peut jouer 
le principe d’absence de biais en théorie de l’estimation. Au $ 3.6 on a mon- 
tré que l’on pouvait obtenir le même effet (l'existence des tests sans biais 
uniformément les plus puissants) en utilisant les tests sans biais dans la 
théorie de tests d’hypothèses statistiques. 

Dans le cas général l’absence de biais se définit comme suit. Supposons 
que le problème de décision consiste à « déterminer » la valeur inconnue 
0 et que par conséquent les ensembles D et © sont confondus. La fonction 
de perte w(6ô, 8) peut être arbitraire. 

DÉFINITION 1. On dit qu’une décision ô(X) est sans biais si 


Eow(ô(X), 6) < Esw(ô(X), 0") 


quels que soient 0, 0” # 6. 
En d’autres termes, minEsw(6(X), v) est réalisé pour v = 8. Ceci expri- 
vU 


me que ô(X) se trouve en moyenne plus près de l’inconnue 8 que de tout 
autre point. 

Il est immédiat de voir que la définition antérieure de l’absence de biais 
est un cas particulier de celle-ci. 

Si l’on teste deux hypothèses multiples H, = {0 € 6} et H2 = (0€ 
€ 62}, l’ensemble D = {5:1, à} peut être fondamentalement différent de 
6. Dans ce cas la définition de l’absence de biais sera formellement diffé- 
rente, bien que sa signification soit la même. Plus exactement, la définition 
1 peut se transformer (cf. [50]) en la 

DÉFINITION 1A. On dit qu’une décision ô(X) est sans biais si 


Eow(ô(X), 8) < Eow(ô(X), 0°) 


quels que soient 0 € 61, 0” € 62 ou 9 € 62, 0’ € O1. 
33* 
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Supposons pour simplifier que 
W(ô1, 0) = wi 
w(Ôô2, 0) 


01 = 0, 62 = 1 et ô(X) est la probabilité (égale à 1 ou 0) d'acceptation de 
H:. Alors 


const pour 0 € O») ; 


const pour 0 € 61, 


Ww2 


Esw(5(X), 0) = fret = ]) si 0€ 6,:, 


wW1Po(Ô(X) = 0) si 8 € 632, 


| (wiPo(ô(X) = 0) si 8 € O1, 0° € @», 
OPUS Mere = 1) si 8€ O2, 8" € Où, 


et l’inégalité de la définition 1A exprime que 
W2Po,(Ô(X) = 1) < wiPo,(ô(X) = 0) si 01 € GO, 
WiPe2(ô6(%) = 0) < Ww2P9(ô(X) = 1) si 82 € O2, 


ou ce qui est équivalent 


W! W: 
Wi + W° M os Wi + WW. 


Po,(OCA) = 1) < 


D'où il s'ensuit 
SUP Esô(X < inf Esô(X), 
0€02 


0€0)] 


donc le test ô sera sans biais au sens de la définition du $ 3.6. Réciproque- 
ment, si la dernière inégalité a lieu, le test à sera sans biais au sens de la défi- 
nition 1A pour une fonction de perte w(ô, 8) convenablement choisie, par 
exemple, pour w:1/(w: + w2) = sup Esô(X). 

€O1 

On trouvera d’autres exemples d'application du principe d'absence de 
biais (en plus des résultats du $ 3.6) dans [50]. 

3. Invariance. Nous avons vu que l'intersection de la classe complète 
engendrée par les décisions « exhaustives » avec la classe des décisions sans 
biais pouvait être composée d’une seule stratégie. Une autre classe naturelle 
de stratégies susceptible de contenir une seule décision inaméliorable est la 
classe des décisions invariantes (comparer avec les $$ 2.18, 2.19, 3.7). 

La définition de l’invariance d’un problème de décision est liée à des 
groupes de transformations dans les trois espaces participant à la définition 
d’un jeu statistique : les espaces D et @ et l’espace des échantillons 2”. Les 
transformations mesurables g de l’espace 27 forment un groupe G muni de 
l'opération de composition : si g: € G et g2 € G, alors g2£, est un élément 
de G tel que x —+ g2(£8,x). La transformation identique sera désignée par e. 
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La transformation g ” ! réciproque de g se définit comme la transformation 
pour laquelle gg = e. La mesurabilité de g € G exprime que gX et X 
seront des variables aléatoires dans 2°”. 

La notion d’invariance d’une famille de distributions {P,] qui a été 
définie dans les $$ 2.19 et 3.7 est étroitement liée au groupe G introduit. Elle 
exprime que pour tous g € G et 8 € 6, on peut exhiber un élément 8, € 6 
tel que 

Pe(gX € À) = Pa,(X € À). (2) 


Les transformations g : © — ©, définies par l'égalité g0 = 6, sous la 
condition (Ao) forment un groupe G (cf. $ 2.19). 

En termes d'espérance mathématique, la condition (2) exprime que pour 
toute fonction intégrable #, on a 


Eop(gA) = Esop(X). (3) 


DÉFINITION 2. On dit que le problème de décision lié au jeu statistique 
(7, 6, w), (X, Pa) est invariant par le groupe G s’il en est de même et de 
la famille Ps, et de la fonction de perte w au sens suivant : pour tous ô € 
€ Det g € G, on peut exhiber un seul 6’ € D tel que 


w(ô, 8) = w(5’, 20), V0 € ©. (4) 


On désignera par g’6 la valeur 6’ qui est définie de façon unique à l’aide 
de g. 


LEMME 1. Les transformations g' de l'espace D engendrées par le 
groupe G forment un groupe G. 


DÉMONSTRATION. Nous montrerons que l’ensemble G’ de toutes les 
transformations g” est stable pour la composition et de plus que g2gi = 
= (g281)". 

En effet 


w(S, 0) = w(giô, 810) = w(gigiô, 82816) = w((g281)' 6, (g281)6). 
Comme (g2£81) = £281, on obtient pour raison d’unicité (g2g1)’ = gigi. 


Ainsi au groupe G des transformations g de.” sont liés les groupes G 
et G’ de transformations des espaces © et D. Le problème de décision est 
invariant par ces trois groupes de transformations. Il est donc naturel de 
choisir des décisions qui soient invariantes lorsqu'on passe d’un problème 
à un autre équivalent. L'adéquation de cette approche a été examinée en 
détail dans les $$ 2.18, 2.19 et 3.7. 

DÉFINITION 3. On dit qu’une décision ô(X) d’un problème invariant est 


invariante Si 
ô(gX) = g'ô(x). 
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La décision invariante randomisée x(X) se définit comme n’importe 
quelle distribution concentrée sur des décisions invariantes. 

On trouvera des exemples d’application du principe d’invariance dans les 
$$ 2.18, 2.19, 3.7 où l’on a étudié les estimateurs équivariants et les tests 
invariants. Signalons un trait spécifique de ces deux cas particuliers. 

Dans le problème d'estimation, le groupe de transformations G’ n’a pas 
été introduit du tout. Dans ce cas les ensembles D et 6 sont confondus et 
dès le départ on a admis que g’ô = gô. C’est pourquoi les estimateurs équi- 
variants ont été définis à l’aide de l'égalité 0*(28X9 = g0*(X). 

En fhéorie de test d'hypothèses, la transformation g’ a été supposée 
égale à la transformation identique g’ = e, de sorte que le test invariant 
x a été défini par la relation r(gX) = +(X). 

Dans ce cas, pour que le problème de test des hypothèses {9 € 6} et 
{9 € 62] soit invariant, il faut admettre aussi (cf. (4)) que 6; = 0: 

La différence entre ces deux approches justifie dans une certaine mesure 
l’utilisation de deux termes différents : l’équivariance (pour les estimateurs) 
et l’invariance (pour le test d’hypothèses) pour désigner des décisions inva- 
riantes. Nous avons envisagé plusieurs exemples de problèmes invariants 
dans les chapitres 2 et 3. Voici encore un autre. 

EXEMPLE 1. Soit X € &.,.,2. Prenons pour © le demi-plan {9 = (œ, 0): 
o > 0} et supposons que D est la droite réelle R et w(ô, 8) = (ô — æ)?/o°. 

Considérons le groupe G de transformations gas X = a + bX = (a + 
+ bX1,..., a + bx,), où b # 0. La variable aléatoire g,.X de 7" peut 
visiblement être traitée comme un échantillon distribué suivant la loi 
Pa + ba, b292. DONC, la famille &,,.,2 est invariante par G si l’on pose g4,»0 = 
= (a + ba, |blo). La fonction de perte le sera aussi si l’on pose ga ô = 
= a + bô, puisque 


D 
Ww(£é.bô, £a. b0) = CLR = w(ô, 8). 


Nous avons donc affaire à un problème de décision invariant par G. Les 
décisions invariantes ô(X4) : Z” — R doivent posséder la propriété 


ô(a + bX) = (Lab X) = La,bÔ(X) = a + bô(X). () 


Par ailleurs, on établit sans peine que ce problème de décision est inva- 
riant aussi par le groupe F des permutations f des coordonnées du vecteur 
X ; ceci étant, f et f’ seront des transformations identiques. Si donc l’on 
exige que la fonction ô(X) soit une décision invariante par F'aussi, il faudra 
alors que 


ëUX) = 2). (6) 
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Signalons que la classe des fonctions vérifiant (5) et (6) est encore trop 
large : elle comprend par exemple toutes les formes linéaires 


ñn n 
GCA) = 2; xx, > æ = 1, 
K=] K=] 


OÙ X«13 + - + Xçm Est l'échantillon ordonné associé à X. Si l’on fait intervenir 
le principe d’absence de biais, on obtient encore une condition sur les coef- 
ficients ax : 


> ak Eo(xw — æœ) = 0. < 
km] 


Les notions d’orbite (théorie de l’estimation) et d’invariant (théorie de 
test d’hypothèses), qui dans un certain sens sont voisines, jouent un rôle 
important dans la construction des décisions invariantes optimales. On rap- 
pelle qu’une orbite dans l’espace © est un ensemble (800, g € G}, où Bo est 
un point arbitraire de ©. En d’autres termes, 0,1 et 02 appartiennent à une 
même orbite s’il existe un g € G tel que 01 = gé2. 

On pourrait définir de façon analogue une orbite dans .7 ”. Les inva- 
riants seraient alors par définition les statistiques constantes sur les orbites 
de ZT. 

La notion d'’orbite garde sa signification dans le cas général aussi. 


LEMME 2. La fonction de risque d’un problème de décision invariant 
pour une décision invariante est constante sur une orbite : 


W{(6(-), 8) = W{(ô(:-), 26) 
pour tous 8€ 6,g€ G. 


DÉMONSTRATION. L'invariance respectivement de la fonction de perte, 
de la décision et de la famille {Po} (cf. (3), (4)) nous donne 


W{ô(-), 0) = Eow(ô(X), 8) = Eow(g'ô(X), g0) = 
= Eow(ô(gX), 80) = Exow(ô(X), 80) = W(6(-), 26). < 


La constance, sur une orbite, du risque pour des décisions invariantes 
randomisées résulte de leur définition et du lemme 2. 

Le lemme 2 nous dit alors que dans ce cas l’espace © tout entier sera 
une orbite (c’est-à-dire que 6 = {£0, g € G} pour un & quelconque ; ceci 
a lieu par exemple pour les translations) et la décision invariante devient 
niveleuse. Donc, le lemme 2 et les théorèmes 2.3 et 2.5 entraînent immédiate- 
ment la proposition suivante qui établit un lien important entre l’invariance 
et la minimaximalité. 
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THÉORÈME 2. Supposons que l'espace 6 est une orbite et qu'il existe 
une distribution a priori Q pour laquelle la stratégie bayésienne xQ(X) est 
invariante. Alors xQ(X) est minimax. 


Le théorème 3.3 entraîne la généralisation suivante du théorème 2. 


THÉORÈME 2A. Supposons qu'il existe une distribution a priori Q con- 
centrée sur une orbite de O, et telle que la stratégie bayésienne xQ(X) soit 
invariante. Si pour tous les 0 


W{(ra(:), 6) < Wi(ra(:), 60), 6 € Oo, 


alors xQ{(X) est minimax. 


Nous avons fait usage de ce test au & 3.9. 


$ 6. Estimateurs asymptotiquement optimaux 
avec une fonction de perte arbitraire 


De nombreux résultats du chapitre 2 sur les estimateurs asymptotique- 
ment optimaux et du chapitre 3 sur les tests asymptotiquement optimaux 
peuvent être généralisés à des fonctions de perte de forme très générale. 

Dans ce paragraphe on s'arrêtera sur des problèmes d’estimation et on 
admettra que w(ô, 8) = w(ô — 6). 

Faisons d’abord une remarque générale. Dans le chapitre 2 nous avons 
vu que dans le cas régulier (X € Ps, P4 satisfait les conditions (RR) ; cf. 
$$ 2.24, 2.28), tous les estimateurs 0* = 6(4) du paramètre 8 étaient « con- 
centrés » dans un 1/Vn-voisinage du point 8. Ainsi, par exemple, pour les 
estimateurs asymptotiquement normaux, (9* — 8)Vn & bo. Il s’ensuit 
que si l’on assujettit la fonction w(f) à des conditions assez larges, le com- 
portement asymptotique du risque Esw(0* — 6) dépendra des propriétés de 
w(t) au voisinage du point { = 0. Si w(f) est bicontinüment dérivable en 
0, w°” > 0, alors pour { — 0 


w" (0) 
2 


Ceci exprime que dans le domaine des valeurs de # (de l’ordre de 1/Vn) 
la fonction w(f) se comportera comme la fonction de perte quadratique 
wo(r) = ct”, c = w”(0)/2, pour laquelle ont été établis les résultats du cha- 
pitre 2. Si de plus w(t) < e°!"! pour un æ > 0 assez petit (cf. théorème 
2.28.6), tous ces résultats restent en vigueur : leur extension à une fonction 
w(t) de forme (1) est une tâche peu compliquée parfaitement accessible au 
lecteur. 


w({) = 1? + o(f?). (1) 
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Dans ce paragraphe, on se penchera sur une généralisation bien plus 
consistante. On admettra que la fonction de perte w(ô, 8) dépend de n et 
se représente sous la forme 


w(ô, 0) = wa(ô — 0) = w(Vn(ô — 8), (2) 


où la fonction w(r) > 0 est définie dans l’espace R“ tout entier. Il est évident 
que w(t) prendra, quel que soit #, des valeurs qui doivent être prises en 
considération. 

On admettra que la fonction w de (2) satisfait les conditions suivantes : 

1) w(r) < el! pour un certain c > 0. 

Cette forme de la condition 1) simplifie un peu les calculs. En effet, tous 
les résultats restent en vigueur si l’on exige que w(f) < ciel" pour à > 0 
assez petit. 

La fonction 
_ Quo?uT 


Vas) = |w(s — u)e du, 


où o° est une matrice des moments d'ordre deux définie positive, jouera un 
rôle très important dans la suite. Cette fonction peut être interprétée comme 
suit 

(2x)? 


Via 


C’est une fonction analytique de s et de o°, puisque 


= ls - pots - w7 
Va(s) = {w(v}e 2 ” dv. 


V:(s) = Ew(s si £), £ (= Po,c ©. 


2) La fonction Va(s) atteint son minimum par rapport à s en un seul 
point que l'on désignera par b,. 

3) b, = (. 

4) La fonction w(t) est continue. 

La condition 2) sera visiblement satisfaite si w(s) # const est une fonc- 
tion convexe vers le bas. Il est évident que F.2(s) sera aussi convexe et ne 
comportera pas de portions « linéaires » (c’est-à-dire que la matrice des 
dérivées secondes sera partout définie positive). 

La condition 3) sera remplie si 


- Loour 


V(0) = — [uw(u)e 2 du = 0, 


ce qui a toujours lieu pour les fonctions symétriques w(u) = w(-—u). 
On aurait pu appeler la valeur b, biais de la fonction de perte w. Cette 

valeur b,, vérifie l'équation V2:(b,) = 0. La condition 3) de nullité de b, 

n’est pas essentielle et son seul objectif est de simplifier l’exposé. Le lecteur 
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pourra traiter sans peine le cas b, # 0. Les changements qui interviendront 
dans les énoncés des théorèmes seront illustrés dans la remarque 2 qui suit 
le théorème 1. 

Rappelons ce que deviendront les définitions des stratégies optimales 
des $$ 2 et 3. Un estimateur 68 sera bayésien par rapport à une distribution 
a priori Q de densité g par rapport à la mesure de Lebesgue (et à la fonction 
de perte w,) si 


[W(68, nq(tdt = min | #(6°, t)g(t)dt, (3) 


où W(0*, 1) = E:w,(0* — 1). L'intégrale du second membre peut être mise 
sous la forme de l'espérance mathématique Ew,(8* — 6) où la moyenne est 
prise par rapport à une distribution de densité f(x)q(#). 

Un estimateur 0* est minimax si pour tout autre estimateur 0* 


sup W(6*, t) < sup W(0", ?). 
{ { 


Ceci nous suggère tout naturellement les définitions suivantes qui sont 
calquées sur celles du $ 2.11. 

DÉFINITION 1. On dit qu’un estimateur 0* est asymptotiquement bayé- 
sien Si 


lim.sup{Ew,(8* — 9) — Ew,:(88% — 0)] < 0, (4) 


où 66 est un estimateur bayésien. 
DÉFINITION 2. On dit qu’un estimateur 0? est asymptotiquement mini- 
max si pour tout autre estimateur 0° 
lim.sup [sup W(67, 1) — supW(6*, 0] < 0, (5) 
n—æo Lre6o t€8o 
où 60 C 6 est un sous-ensemble fermé quelconque. 

Pour étudier les estimateurs asymptotiquement optimaux, on 
s’appuyera dans ce paragraphe sur les seules notions introduites par les défi- 
nitions 1 et 2. Ceci tranchera avec le chapitre 2 qui faisait intervenir aussi 
les estimateurs asymptotiquement efficaces. L'absence de ces derniers 
s'explique par le fait que pour les fonctions de perte w arbitraires, nous ne 
disposons pas d’inégalités de Rao-Cramer pour Le W(0*, 0) (Ko est la 


classe des estimateurs sans biais) qui nous permettent de juger de la qualité 
de 0* d’après la valeur de W/(8*, 0) et de déterminer, en particulier, les estima- 
teurs efficaces (et asymptotiquement efficaces), c’est-à-dire les estimateurs 
uniformément les meilleurs dans la classe Ko. 

Les propositions suivantes expriment que l’estimateur du maximum de 
vraisemblance est, comme dans les conditions du chapitre 2, asymptotique- 
ment bayésien et asymptotiquement minimax. Nous déterminerons par ail- 
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leurs la borne inférieure asymptotique de la fonction de risque pour une 
fonction de perte quelconque w (l’inégalité de Rao-Cramer nous fournit la 
borne inférieure exacte). Dans les trois théorèmes ultérieurs, on admet que 
les conditions (RR) sont remplies. 


THÉORÈME 1. Supposons que X € Po, 0* est un estimateur du maxi- 
mum de vraisemblance et 66 l'estimateur bayésien associé à une fonction 
de perte w (cf. (2)) satisfaisant les conditions 1), 2) et 3) et à une distribution 
a priori Q de densité bornée q par rapport à la mesure de Lebesgue. Alors 


88 — 0%] Vn —+0, (6) 
Pe 


(0% — 0) Vn € bor- 0 (7) 


uniformément en 0 € 60, Oo C © étant un sous-ensemble fermé sur lequel 
qg(0) > Go > 0 est continue. 
Si, de plus, la fonction w vérifie la condition (4), alors 


Ew(g — 9 = EwtWi(@g — 0) + Ewtn) = E ex io, (® 


où no € or (0, 0 E Q; E désigne comme précédemment l'espérance 
mathématique par rapport à la densité f.(x)q{(t) (X € Po, 0 € Q). 


REMARQUE I. Conjointement à la convergence (6), on peut établir la 
convergence presque sûre pour la mesure Ps. 

REMARQUE 2. Si w est telle que le biais b, # 0, le théorème 1 reste 
entièrement en vigueur, pourvu que l’on remplace 84 par 88 — b,,/Vn dans 
(6), ve (8). Donc, b, s’interprète comme le biais asymptotique de (0% — 
— O)Vn. 


THÉORÈME 2. Supposons que la fonction w satisfait les conditions 1) à 
4). Alors, pour tout estimateur 0* 
lim.inf.supE:w,(0* — r) > sup Ew(m), (9) 
t€60 


no 1€00 
m € or 'o:. 
Tout estimateur 0* tel que 
Ecw:(8® — 1) — Ew(r) (10) 
uniformément en à t, est asymptotiquement minimax. 


THÉORÈME 3. Supposons que X € P, et que la fonction w satisfait les 
conditions 1) à 4). L'estimateur du maximum de vraisemblance 6* est alors 
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asymptotiquement minimax et asymptotiquement bayésien pour toute dis- 
tribution a priori Q de densité q continue, strictement positive au point 6. 


Ces propositions sont identiques aux propositions correspondantes du 
chapitre 2. Elles rendent vraisemblable l’hypothèse que pour toute fonction 
de perte w vérifiant les conditions 1) à 4) l’estimateur du maximum de vrai- 
semblance est uniformément et asymptotiquement le meilleur dans la classe 
des estimateurs asymptotiquement sans biais (comparer avec les $$ 2.25 et 
2.28). 

DÉMONSTRATION du théorème 1. L'estimateur bayésien se définit en 
vertu du principe de Bayes comme un estimateur dont la valeur 608 est telle 
que 


[w(68 — DaGlxdt = minlw(u — HatlXM)dt = 


= ie — 0) — Vn(t — 6) _ Of) ,, 
“ee {a(1f,(A)dv 


Ceci exprime que pour (88 — 0)Vn = u@ on peut prendre n'importe quelle 
valeur s pour laquelle est atteint min U(s), 
Li 


= e SR dé 
U(s} = EC va (e + )2()# (11) 


Je +1(À) 
Je(X) 
Nous aurons besoin de propositions relatives au comportement asymp- 
totique de U(s). Dans les $$ 2.28 et 2.29, nous avons établi (théorème 2.28.5) 
que si les conditions (RR) étaient réunies, alors 


où comme précédemment. Z(f) = 


Utu*) = e"“q(*)(Vrn(0) + En(X, 8)), (12) 
| | .. (2r*7 
OÙ En(X, 0) — 0 uniformément en 8 (nous avons remplacé ici X 

P, VI(6) 
xEw(#) par Vie, et g(8) par q(ô*)). 
Remarquons maintenant que 
P(Vn|0$ — 6*| > €) = P(lu$ - u*| > €) < 
< a ( MUR U(s) < U(u*)). (13) 


Vu que nous connaissons la représentation asymptotique de U(u*) il 
nous faut estimer la valeur U(s). Des théorèmes 2.28.4 et 2.29.3 il s'ensuit 


$ 6] ESTIMATEURS ASYMPTOTIQUEMENT OPTIMAUX 525 


que pour toute suite arbitraire &, — 0, pour |v| < ô,Vn 
nZ() = YU) — 3 — IG — wŸQ + 6,6%, 8, 0) 
Vr 


len(X, 9, u)| < eL(X, 8) —+ 0 uniformément en 6. Mais 
Poe 


U(s) > Un(s) = w(s — v)q C + 7)2() dv. 


lo — u CE, Vn 


Considérons l’ensemble 


An = [ax 8) < @, inf a(e + =) > q(6*X1 — o}. 


lou <a 
e > 0, 
pour lequel de toute évidence 
Pe:(4,) — 1. (14) 
Sur cet ensemble, on a uniformément en 0 
Un(s) > (1 — o)g(*)e""? x 


X { w(s — o)ap{ -7 (vu — u*)Z(0)(v — u*7( + o)} de : 
bu AC Va 
= (1 — o)qÉ*)e [Vroa+o(s — 4%) — ras), (15) 


où en vertu de la condition 1) 


Fa(S) = w(s — ap | - 7 — u*)J(0)(v — u*T x 


b-u>8,Va 
" (2x) 


X (1 + }e Ce = p À 
c)'d<e To (nl > nn), 


n € or + oc); 
d étant le diamètre du domaine 6. Comme pour le lemme 2.23.1 on s’assure 
sans peine que 
P(|n| > GnVn) ge TE, œ > 0. 


En choisissant 6, = n°17? 


grands 


, On trouve que pour tous les s et les 7 assez 


ns 


Fn(s) < € (16) 
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Appliquons maintenant les conditions 2) et 3) en vertu desquelles 
Du Vreo(s — u*) > Vrc(0) + 47, 7 = 7(e) > 0. 


|s — u 


D’après les propriétés analytiques de F.:(s), on obtient pour les ç assez 
petits 
ne Viou+o(s — uU*) > Viw(0) + 37, 
sue. 


et d’après (15) et (16) pour X € 4, et pout 7 assez grand 


min Ua(s) > (1 — e)q(Ë*)e"“”[Yrn(0) + 27]. 
Is—u2e 


En se servant de (12) et (13), on trouve en définitive 
Po(Vnl8g — 0 >e) < Pol LUS Ua(s) < U(u*)) < 


< Po(X € A) + Po(( — o)[Frn(0) + 2x] < 
< Vra(0) + En(X, 8)). 


En choisissant Q@ suffisamment petit pour que (1 — o)27 — çVr(0) > 
> 7, on obtient 


P(Vnl08 — ô*| >e) < Po(X € An) + Po(en(X, 8) > 7) + 0 


lorsque 7 —+ . Ce qui prouve la proposition (6) en vertu de (12) et (14). 
La relation (7) découle de (6) et des théorèmes du $ 2.29. Prouvons 
maintenant la relation (8). En vertu de (7) et de la propriété 4) il vient 


w(Vr(6ë — 6)) = wine), ne € Po.r-19. 
Le lemme de Fatou nous donne 
lim. .infEcw (Vn (68 - 1)) > Ew(o), 
im inf (V8 - 9) > faWEwMId = Ew(no). 
Par ailleurs, par définition de 6& on a 
Ew(Vn(68 — (6) < Ew(Vn(* — 8) + Ew(ne). 


La dernière relation résulte de la convergence uniforme de E,w(Vn(ô* — 
— 1)) —+ Ew(nr) qui a été établie dans le $ 2.29. < 

DÉMONSTRATION du théorème 2. Prenons une distribution Q concen- 
trée sur Go, de densité g(f) > 0 bornée pour t € 66 et supposons que 68 
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est l’estimateur bayésien associé à Q. Alors pour tout estimateur 0* 
sup EewA(8* — 1) > ([Ew:(8* — 1q(dt > 
166 È 
> [Ew:(68 - Datrat = Ew:(88 — 6). 
@o 
Le lemme de Fatou nous donne, eu égard à (8), 
lim.inf. Sup. E:w,(0* — 1) > lim. 1.infEwr (88 — 0) > Ew(ne) = 


n—œ@ 1€ 


= | Ew(n)g(dt. 
6o 
La fonction Ew(n:) = ur Vr(0) étant continue, par rapport à #, 
x 
l’intégrale 
VI) Vie (0)q(t)dt 
6o 


peut être rendue aussi proche que l’on veut de supV/(t) Vra)(0) = 
(€6o 


= Sup Ew(n:) par un choix convenable de gq(f). Ce qui prouve (9). 
1€Oo 


Supposons maintenant qu’un estimateur 0f possède la propriété (10) et 
soit 0* un autre estimateur quelconque. En vertu de (9) et de la convergence 
uniforme de (10), il vient 


lim.sup [supEov — 1) — supE;w,(0* — ] < 
ñn — © 1€6o ‘€60 
< sup. lim E:w,(0? — f) — supEw(ns) = (. 
1€00 no 


On a ainsi prouvé l'inégalité (5) et avec elle le théorème 2. 
DÉMONSTRATION du théorème 3. Que Ô* soit asymptotiquement mini- 
max résulte de ce qu’il est justiciable de (10) en vertu du théorème 2.29.4. 
Qu'il soit asymptotiquement bayésien résulte de ce que la relation (4) est 
valable pour 8* = 6%, car 0* est justiciable de la convergence uniforme (10) 
et par suite 


lim Ew,(0* — 0) = lim | Ecwn (0° — 6)q(t)dt = 
= Ew(ne) = lim Ew,(08$ -— 6). 


La dernière égalité découle de (8). Ce que nous voulions. 
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On peut renforcer le théorème 1 en exigeant accessoirement que la fonc- 
tion w(f) soit à croissance assez rapide. Plus exactement, posons wn = 


= minw(f) et Wu = maxw(r) et considérons la condition 
H>N ls M 


5) Il existe y < 1 tel que wn > 2W.N pour tous les N assez grands. 
Si w(r) croît comme une fonction puissance ou exponentielle lorsque 
[| — oo, la condition S) est satisfaite. 


THÉORÈME 4. Si les conditions 1) et 5) sont satisfaites, g(t) > Go > 0 
sur un ensemble fermé 0 et q(t) < Qm < ©, alors pour des c < et 
a > 0 indépendants de t, on a 


P:(Vn(08 — r) > N) < ce", 1 € Oo. 


Ceci et le théorème 1 entraînent que pour toute fonction v(r) continue 
telle que |u(r)| < e7°"#, on a 


Esu(Vn (68 _ t)) — Eu(m:), 1 € Oo. 


U U 
u(r) = “0 ( + s)()« 


li>r 


Posons 


(ceci est la partie de l'intégrale U(0), étendue au domaine jv| > r). Pour prouver le théorème 
4, nous aurons besoin du 


LEMME 1. Si w(t) satisfait la condition 1), q_ = max q(u) < ©, alors pour certains B > 
> 0, a < ©, indépendants de 8 et pour tous les0 <ô<1,ona 
Pa(u(r) > à) < re. 
Cette inégalité est valable pour w(t) = 1. 


DÉMONSTRATION. On a 


Potu(r) > 6) < Pe (sz +) > 1) + Pe (0 > 6, apz(-) < ) ; 
Wir \Vn ir \Vn 


Dans le théorème 2.232 on a vu que le premier terme est majoré par ae”” F. B > 0. Le 
second terme est majoré par 


Po w(-v)gi 0 + D 27 se du > 6 (17) 
Vn Vn ; 


loi > 


Vu que 


E,.Z'? (5) ge-?8 8 > 0, 
ñn 


$ 6] ESTIMATEURS ASYMPTOTIQUEMENT OPTIMAUX 529 


en vertu du théorème 2.23.1, l'espérance mathématique de l'intégrale de (17) est majorée par 
(cf. lemme 2.23.1) 


2 
8 
mn lle” du < ce”. 


li>r 


Donc, en vertu de l'inégalité de Tchébychev, la probabilité (17) est au plus égale à 
ce”"7/6. A 


Dés par u:(r) la valeur de l'intégrale u(r) pour w(f) = 1: 


U U 
ui(r) = | a(e + +)4() dv. 
l1>r 


LEMME 2. Si q(6) > 0 sur un ensemble fermé Oo, alors 
Po(u1(0) < €) < be, 0 € Oo, 
pour un certain b < © indépendant de 8, & > 0 quelconque et tous les n assez grands. 


DÉMONSTRATION. Pour tous les n assez grands 


U U 
u1(0) > ( 1 + +) > 
li < 1 
> | cf (x. 0 + +) — L(X, 0} av : 


loi<1 


= @o [ SC Fa) + 3 vu au 


CL 
où 


. 1 , = 1 ” à: 
qe = min QU) > 0, Fa = ——L'(X, Diva = > lLax ol. 


ô=0+ çun7"?, [ol & 1. (L’ est le vecteur des dérivées du logarithme de la fonction de vrai- 
semblance, Li sont les dérivées partielles du second ordre.) Comme |(v, ÿ.)| & lui |f.| et que, 


en vertu des conditions (RR), 
Duo S [env < 


(=! je 


UyauT 


La, 


où L, = >}lGu), on a sur l'ensemble À = {|t.] & 1/€, La & n/€?k) 


ds] 


2 
u1(0) > Go { of Lee ue HE à > Go { = _ Ha > Cic- 


lo ç1 loge”! 
Ceci exprime que {u1(0) < c14} C À. Puisque 


_ 2 
Po(4) & Pal > € 7") + Pe (z. > +) <E'Eelt + À E,L,, 


34—4195 
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& 
Eolta® = 2,706), EoLa = nEol(x), 


is) 
il vient 
Pe(A) < ce. < 


DÉMONSTRATION du théorème 4. Désignons par M, l'ensemble des points s en lesquels est 
réalisé minU(s) (C'est-à-dire l’ensemble des points (9% — 9)Vn ; cf. (34)) *). Alors 


{MA C D) = { minU(s) < . in U(s) }. (18) 
sD 
Donc 
(Vnl88 — 6] > 2N) = { min U(s) < min U(s)} C { min U(s) < UC) } 
bi>2N HI<2N ls] æ 2N 
Ici 
: u u 
or Z Wa { 1 + +)4(+) du = wn{u:1(0) — ui(N)), 
Is <N 
Wn = min w(s — uw) = min w(f). 
bsl>2N H>N 
ls <N 
D'autre part 


UC) = (we (° + +)4(+) du & (100) = u(M))War + u(M), 


où Wys = maxw(f). 
n<AM 
De là on déduit 


ÊC | 68 - 0 | > 2N} © {wn(ur(0) — a) < Wa(ui(O) — uM) + u(M)} c 
c [CE | 1)o < a + nue + su) 


En vertu de la condition 5) choisissons M = yN, y < 1, de telle sorte que wn > 2W, pour 
tous les N assez grands. Utilisons par ailleurs les inégalités Wy > 2 (pour les M assez grands), 
Wwn < W(N) < €". Il est alors évident que 


(Vn 168 - 01 > 2N) © a) < uGQN) + mN"}. (19) 


Le lemme 1 nous donne 


Pe (un > 7e) ç 2ae7ENT+aN, 


Pe (vo > pre] < 2ae "+aN + cN 


*) A la place de M, on aurait par exemple pu considérer le point de plus petite norme 
en lequel est réalisé min U(s). 
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En prenant a < . By°, on trouve que pour les grands N, la relation (19) entraîne 
P,(Vn | 03 -0| >2N) < 4e" + P,(uo) < e-"),. 
Reste à appliquer le lemme 2 en vertu duquel 
Po (2100) <e *) £ be", < 


$ 7. Tests optimaux avec une fonction de perte arbitraire. 
Test du rapport de vraisemblance 
traité comme une décision asymptotiquement bayésienne 


1. Optimalité des tests statistiques avec une fonction de perte arbitraire. 
Nous avons vu dans les deux paragraphes précédents que de nombreux 
résultats fondamentaux de la théorie de l’estimation s’étendaient qualitati- 
vement à des problèmes plus généraux de décision statistique avec des pertes 
w(ô, 0), 5e D C R*,8€ 6 C R* non quadratiques. 

On retrouve le même tableau en théorie des tests d’hypothèses. Nous 
avons vu au $ 4 que les décisions optimales pour les jeux à ensembles D et 
6 finis et à fonction de perte arbitraire étaient de la même forme que les 
tests optimaux d’un nombre fini d’hypothèses simples envisagés dans le 
$ 3.1. Les résultats des $$ 3.5, 3.6, 3.7, 3.9, 3.11, 3.13, 3.14 et 3.15 sont vala- 
bles aussi pour l'essentiel. En particulier, les théorèmes relatifs aux tests uni- 
formément les plus puissants des $$8 3.5, 3.6 et 3.7 se transformeront en pro- 
positions pour les stratégies uniformément les meilleures dans les jeux sta- 
tistiques correspondants (6 C R“, D = {6ô1, &2}) dans lesquels toutefois 
la fonction de perte w(ô;, 8) = w:(8), w:(8) = 0 pour 8 € 6,, i = 1,2, ne 
sera pas nécessairement statistique (w,(9) = 1 pour 0 & 6.) mais satisfera seu- 
lement certaines conditions assez générales (par exemple sera monotone 
croissante lorsque 8 s’éloignera de 6j;). Le rôle des classes X, dans lesquel- 
les nous avons cherché les tests uniformément les plus puissants sera tenu 
dorénavant par les classes de décisions x(4) dont la valeur maximale & des 
« pertes de première espèce » est fixée : 


€ = sup W{(x(-), 8) = sup w2(8)Eox(X, ô2). (1) 
0€6; 066: 


On minimisera les « pertes de deuxième espèce » : 

W{(r(:), 6) — w1(0)Eox(X, 01), () € O2. (2) 
Ici x(X, ô:) désigne la probabilité d’accepter la décision 6{”par le test x.Pour 
simplifier les notations, on posera, suivant le chapitre 3, x(X, &2) = 
= 7(X), de sorte que x(X, ô1) = 1 — x(X). La désignation du test et du 


nombre +r(X, 62) par le même symbole x(%4) est commode, et comme nous 
l’avons vu dans les chapitres précédents, ne prête pas à équivoque. 


SLR 
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Dans (1) et (2) on cherche les extrémums d’expressions qui ne different 
des expressions homologues pour fonctions de perte statistiques que par des 
facteurs multiplicatifs indépendants de r(X). Si ces facteurs sont monoto- 
nes, l’exposé des $$ 3.5 à 3.7, 3.9 et 3.11 ne subit pas de changements nota- 
bles lorsqu'on passe au problème défini par (1) et (2). 

Les résultats à caractère asymptotique des $$ 3.13 à 3.15 seront peu 
modifiés aussi. Dans ce paragraphe on se penchera plus en détail sur la 
généralisation des résultats du $ 3.13 au cas d’une fonction de perte arbi- 
traire et l’on verra que cette généralisation ne nécessite aucun effort 
supplémentaire. 

2. Test du rapport de vraisemblance traité comme un test asymptotique- 
ment bayésien. Considérons un jeu statistique (Z, 6, W) dans lequel 
l'ensemble © est un compact convexe de R* ayant la puissance du continu 
et l’ensemble D des stratégies est un doubleton : D = {&1, &2}. La fonction 
de perte w(6, 8) est de la forme 


_ (0  8=8, 
Un 0 8 # Gi, 
0 = fn V5 


où 6. est un point intérieur donné de 6. Pour w2 = w1(9) = 1 ceci corres- 
pond au problème de test de l’hypothèse simple H;1 = {9 = 81} contre 
l'hypothèse complémentaire H2 = {0 # 6:). 

Pour trouver une décision bayésienne en appliquant le principe de 
Bayes, considérons un jeu ordinaire (D, 9, w) et supposons que sur © est 
donnée une distribution Q telle que g = Q({4:1}) > 0 (nous nous plaçons 
dans l’approche totalement bayésienne). Posons Q> = EE. où Lo 
est une distribution dégénérée concentrée au point 8. Alors 

F1, Q) = (1 — g) [ m(NQ@2dr), F2, Q) = qw. 
Ceci exprime que la stratégie bayésienne xq{(ô2) = 1 si 
A — g) | m(K)Qdt) > que, (3) 


et xQ(ô1) = 1 si l’inégalité contraire a lieu. La relation (3) peut être mise 
sous la forme 

[w(Q(ar) > 0, 
où 


: wi) Si t # 61, 
ii LS si t = 61. 
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D'après le principe de Bayes, la décision bayésienne xQ(X) est de la 
forme xQ(X) = 1 si 


{w(WQx(at) > 0, 


où Qx est une distribution a posteriori. Supposons que ÀX(df) = dt pour 
{ # 61, ÀX({01}) = 1 et que la distribution Q2 admet une densité g2(f) par 
rapport à la mesure de Lebesgue. Alors la distribution a priori Q admet une 
densité g(f) par rapport à ), égale à (1 — g)ag:(t) pour t # 61 et q(f) = q 
pour { = 6,. Ceci exprime que la densité a posteriori par rapport à la 
mesure À sera égale à 


__ f(X)q() 
qg(t|) + AX) , 


SA) = (A (X)qu)A(du). 
Donc, la décision bayésienne xQ(X*) sera de la forme rq(X) = 1 si 
(1— g)[m (Hat > w2qfo,(X). (4) 
Le risque attaché à cette décision vaut 
Wira(-), Q) = gwPa(raQ(X) = 1) + 
+ (A — g)fm()qu)Pa(rQ(X) = O)du. 


En comparant ces relations avec le contenu du $ 3.13, on constate que la 
région (4) d’acceptation de la décision 62 est ici de la même forme que la 
région Q(c) dans (3.13.3) pour c = w2g/(1 — g)et en remplaçant la fonction 
g{(t) par wi(t)q2(f) dans (3.13.3). En d’autres termes 


1 si ro.(2) > c, 
AQUX) = y Si ro@(4) = C1, (5) 
0 si r@(X) < C, 
où 
h LATOLAU (A) dt __. wg 
ro:(X) Eu TT fatAN)  — ? C = = g. 


Suivant le $ 3.13 on peut ensuite procéder comme suit. Dans l’ensemble 
des décisions bayésiennes (5) il faut choisir, en changeant le nombre g, la 
décision +xQ(4) dont la valeur des « pertes de première espèce » soit fixe : 

W2[Pe(ro(X) = 1) + YPa(rQ(X) = )] = à. 
De toutes les décisions +(X) telles que 
(x) = WE, r(X) < @, (6) 
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la décision rQ(%) sera celle qui minimisera les « pertes de deuxième espèce » 
(x) = [m(u)q(u)Eu(l — r(X))du. (7) 


Ceci est la conséquence directe du fait que la décision +Q est bayésienne. 
La comparaison des valeurs (6) et (7) aux probabilités d’erreur de première 
et de deuxième cspèce (3.13.4) montre que nous avons de nouveau affaire 
à des distinctions insignifiantes dont la plus importante consiste à rempla- 
cer dans (3.13.4) la fonction q(u) par la fonction w:(u)q2(u). Les nombres 
c et y de (5) sont définis à l’aide de a. 

Ce qui vient d’être dit permet, en suivant exactement les raisonnements 
du $ 3.13, d’énoncer les définitions et propositions suivantes. 

DÉFINITION 1. On dit qu’une décision r(X) appartient à la classe X, 
(est de niveau asymptotique 1 — €) si 


lim.supEo,(x) < €. 


Cette définition est pratiquement la même que la définition 3.13.1. 
Montrons maintenant qu’en choisissant g convenablement, on peut faire 
en sorte que ro € À,. Posons 


Le [md | (æ ) m()g2(@:) run 


Ji e,(X) on. N 74 ’ 
où Z = J(61) est la matrice d’information de Fisher au point 0,. Supposons 
par ailleurs que les conditions (RR) sont remplies, que 6, est un point inté- 


rieur de 6 et que la fonction w.(f)g2(f) est continue au point 6, et stricte- 
ment positive 


e- (2 ) wi(@1)g2(@1) @) 


É Pl 


Dans ces conditions, en vertu du lemme 3.13.1 on obtient pour la fonction 
pic) = Pro (A) > c) 


pa(c) = Po,(T(A) > 2) —+ Hk(2z, of. 


Donc, en posant qg = c/(c + w2), où c est défini dans (8), z = k,/2, h, est 
le quantile d'ordre 1 — € de la distribution du x? à & degrés de liberté, on 


obtient 
: w2q : 
lim pe, (- _ 5) De 


et par suite rQ(X) € À, 
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DÉFINITION 2. On dit qu’une décision +(X) est asympiotiquement 
bayésienne dans k , Pour une distribution a priori Q donnée si ra € K, et 
lhm.su œ2(x) 


n—æ @2(F0) 


THÉORÈME 1. Si les conditions (RR) sont satisfaites et 0, est un point 
intérieur de ©, il existe alors dans K, une décision asymptotiquement 
bayésienne +(X), la même pour toutes les distributions Q2 et toutes les 
fonctions wi(t) telles que la fonction wi(t)q2(t) est continue, strictement 
positive en 0, et bornée sur 6. Le test x est défini par la relation 


a _ . Î 6(X) 2 
x(X) = 1 si FD > ekw1, 
Ce théorème se prouve exactement comme le théorème 3.13.1 au change- 
ment près de la fonction g(f) en la fonction w1(f)g2(#f}). Le théorème 3.13.1 
permet de déterminer aussi la valeur des « pertes de deuxième espèce » 
(cf. (7)) du test +. 
Le test (9) n’est autre qu’un test du rapport de vraisemblance. 


(9) 


$ 8. Décisions asymptotiquement optimales 
avec une fonction de perte arbitraire dans le cas d’hypothèses proches 


Dans ce paragraphe on généralise les résultats du $ 3.14 au cas d’une 
fonction de perte arbitraire. Cette généralisation sera plus consistante que 
dans le paragraphe précédent, puisque la fonction de perte dépendra de n 
(comparer avec le $ 6). 

Soit (2, @, W) un jeu statistique dans lequel 6 C R“, D = {ô1, 2}, 
W(ô:, 0) = w:(0), où w:(8) = 0 pour 8 € 6, i = 1,2,801N62: = ©. 

Si w:1(0) = 1 pour 8 é 6,;, on obtient un problème de test des hypothèses 
H; = (0€ 6;}j,i = 1,2. 

Trouvons une stratégie bayésienne pour le jeu (D, 6, w). Soient Q; des 
distributions sur 6; 


Q = qiQù + g2Q, qi + q2 = 1. 
Il est alors évident que : 

W(G, Q) = [Wm()QI) et ra(ë) = 1, 
si 


[w(Q(ar) < w()Q(ar), 


ou si 


qiw()Q(dr) < q:|w(Q2(dr). 
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En vertu donc du principe de Bayes, la décision bayésienne rQ(X) sera 
de la forme +Q(4) = 1 si 


[w2()Qx(dr) < [wm(HQx ar). (1) 


Supposons que les distributions Q; àadmettent les densités g;(f), i = 1, 
2, par rapport à une mesure À. Alors Q et la distribution a posteriori Qx 
auront des densités égales respectivement à g(f) = gigilf) + g2q2(0) et 


au) = JO = fat CON). 


Ceci exprime que la relation (1) peut être mise sous la forme 


qi | w()g (Of CON) < q2 | mg ANA). (2) 


6: 6: 
Le risque attaché à la décision bayésienne rQ(X*) vaut 
W(ra(-), 0) = w1(8)Eoxo(X) + w2(80)(1 — Eoro(X)), 
Wira(:), Q) SE LAC O) t)q(t)X(dt). 


Passons maintenant à l'examen d'alternatives proches. Soit 0, une valeur 
quelconque fixe du paramètre 9. Comme dans le $ 3.14, on admettra que 
les ensembles 6; sont de la forme 


6; = 6, + T;/Vn, (3) 


où l'; sont indépendants de 7. À propos de Q; on admettra qu’elles sont 
induites par des distributions I; concentrées sur l'; et indépendantes de n. 
Si les ensembles l'; sont bornés, les stratégies 8 sont situées dans un 1/Vn- 
voisinage du point 81. Si donc w.(f) et w(f) sont continues, w;(f) > c > 
> 0,i = 1, 2, respectivement sur les ensembles 6: et 6:, le jeu statistique 
(Z, 6, W)) caractérisé par une telle fonction de perte possédera pratique- 
ment les mêmes propriétés que le jeu de fonction de perte wi(f) = 1, 
t € 6;, étudié dans les $$ 3.14 et 3.15. 

Nous envisageons ici une généralisation plus consistante identique à 
celle qui a été conduite dans le $ 6. On admettra que la fonction de perte 
W(ô;:, 8) = w:;(0) dépend de n, si bien que 


Wi(0) = Wi.n(8) = vi(Vn(8 — 61)), (4) 


où v;(r) sont des fonctions mesurables bornées indépendantes de n. 

Suivant le $ 3.14, on appellera problème A le problème qui consiste à 
trouver à partir d’un échantillon X € P4 une décision du jeu (, 6, W) 
décrit plus haut. Si les relations (3) et (4) ont lieu, on dira que le problème 
A est un problème de test d’hypothèses proches avec des fonctions de perte 
vi(r). ° 


$ 8] DÉCISIONS ASYMPTOTIQUEMENT OPTIMALES 537 


Considérons maintenant un autre jeu statistique (Z5, l', V) relatif à un 
échantillon Ÿ € &,,1-. de taille un, où 7 = /(6:) est la matrice d’informa- 
tion de Fisher pour la famille { P,} au point 8.. Les éléments de ce jeu sont : 
l’ensemble des décisions Ds = {d1, d:} et l’ensemble des stratégies de la 
nature l = l, U l2. La fonction de perte u(d, y) : Ds X TV — R est définie 
par les relations 


v(di, y) = vi(y). vi(y) = 0 si y € Fi. 


Donc, dans ce jeu, 3 est la classe de toutes les décisions d{Y) : 7 = 
= R* — DB, 


V(d(:-), y) = vi(Y)P,.1-(d(Y) = di) + U2(Y)P,.17-(d(Y) = di) 


(l’un des termes du second membre est nul). On note de façon analogue les 
pertes attachées aux stratégies randomisées +(Ÿ) en termes de Er(Y), Y € 
E .,,1-:. Ce problème sera appelé problème B. 


Les problèmes A et B sont reliés par la même relation que les problèmes 
homologues du $ 3.14. Soit r(Ÿ) une décision du problème B optimale dans 
un sens ou dans l’autre (bayésienne, minimax), et soit Ô* l’estimateur du 
maximum de vraisemblance dans le problème A, y* = (0* — 8@:)Vn. La 
décision +(+*) sera alors une décision asymptotiquement optimale (dans le 
même sens) du problème A. 

Le « critère limite d’optimalité » formulé permet de ramener le problème 
A à un problème B plus simple. 

Pour donner un sens plus précis à ce qui vient d’ être dit, considérons 
les définitions suivantes. Soient données des distributions IL sur I";. Posons. 
I = qill + q2il, qi + Qq2 = 1, et désignons par Q la distribution induite 
sur © par I et la transformation 8 = 6, + y/Vn. 

DÉFINITION 1. On dit qu’une décision +,(X) est asymptotiquement 
bayésienne si 


lim.sup{W(r1(-), Q) - Wirat-), Q)] < 0. 
Comme précédemment 
W(x(:), 8) = w1(8)Eox(X) + w2(8)(1 — Eor(X)), 
W(rC), 8) = [(W/x(), NQ(r), 


où +Q est une décision bayésienne. 
DÉFINITION 2. On dit qu’une décision 7,(4) est asymptotiquement 
minimax si pour toute autre décision (4) on a 


lim.sup [sup W{xi(-), 0) — supW{(r(:-), 6)] g 0. 
n — © 0€6 06€6 
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On aurait pu comparer ici x1 uniquement à une stratégie minimax # 
(comparer avec la définition 1). 

Nous aurions pu comme dans le $ 3.14 envisager aussi des décisions 
asymptotiquement bayésiennes et asymptotiquement minimax dans la 
classe À, des décisions à « pertes de première espèce » asymptotiques fixes 


e = lim.sup. sup w:(8)Eox(X). 
n—o 066, 


Pour obtenir les résultats respectifs, il suffira de comparer le contenu de ce 
paragraphe à celui du $ 3.14. 

Désignons par xn(}Ÿ) la décision bayésienne du jeu (Zs, l, P) (Cest-à- 
dire du problème B) associée à une distribution a priori II et supposons 
pour simplifier que les ensembles l'; sont bornés. 


THÉORÈME 1. Supposons qu'au voisinage d’un point 6: les conditions 
(RR) sont satisfaites et que les fonctions vi et la distribution Yi; sont telles 
que 0 < {vi (u)TR (du) < w,0 < fv2(u)Ti (du) < ©. Alors dans les nota- 
tions introduites, le test 


n1(X) = æn(y*), y* = (6% — 6:1)Vn, 


sera la décision asymptotiquement bayésienne du jeu (?, 6, W) (c'est-à-dire 
du problème A) associée à la distribution a priori Q. 


THÉORÈME 2. Supposons qu'au voisinage de 6, sont satisfaites les con- 
ditions (RR) et que dans le problème B existent la décision minimax x(Y) 
et la distribution TX la plus défavorable correspondante. Le test x\(X) = 
= x(y*) sera alors une décision asymptotiquement minimax du 
problème A. 


REMARQUE I. En vertu des théorèmes du $ 3, les conditions d’existence 
de x et IT seront réunies si v, sont des fonctions continues. 

DÉMONSTRATION du théorème 1. Elle est calquée sur celle du théo- 
rème 3.14.1. De (2) il s'ensuit que la décision bayésienne ra est de la forme 


xQ(X) = ]si 
mA) og (5) 
[w2()q (D CAN(dE) 2 


Jo, +1(4) 
Je, (x) 


qi()X(dt) = Qi(dt), Qi(81 + du/Vn) = I(du), 
| Wi(1 + u/Vn) = vi(u), 


En posant Zi(f) = et puisque 
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on peut par le changement f = 01 + u/Vn ramener l’inégalité (5) à la forme 


(u@)Zi@/Vn)bdu)  [Zi(u/Vn)i(du) à... 
(uG)Z@u/VnL (au) (Z@/VniGau) q° 


où les distributions généralisées T;(4) = [ui :(u)IL(du) (v(u) = vi(u), 
A 
î = 1, 2) peuvent être transformées en mesures de probabilité par une renor- 
malisation en introduisant les distributions IL; (4) = H/(4)/H;(T;) (par 
hypothèse O0 < IL{T;) < œ). Nous obtenons alors en qualité de (5) une iné- 
galité exactement de la même forme que dans le & 3.14. 
La suite de la démonstration est la même que dans le $ 3.14 à quelques 
simplifications près. Nous la laissons au soin du lecteur. Signalons qu’elle 
s'appuie sur la convergence uniforme en 


Wira(:), 0) né V(æn(:), y), ACT OX 6) + Værn(-), y), (7) 


où +1(4) = xn(y*) et 0 = 601 + y/\n. < 
Pour prouver le théorème 2 nous aurons besoin du 


LEMME 1. Soient Q une distribution a priori et x; la décision asympto- 
tiquement bayésienne telle que 


lim.sup W{(r1(-), Q) = c, lim.sup.sup W{(x(:), 8) < c. (8) 
n — © n—o 060 
Alors +, est une décision asymptotiquement minimax. 


DÉMONSTRATION. Désignons comme précédemment par ra la décision 
bayésienne. Pour toute décision + on a alors 


lim.sup.sup (x, 8) > lim.supW{(x, Q) > 
«6 


no 0 no 


> lim.supW(xo, Q) > lim.sup W{(r1, Q) = 


= c > lim.sup.supW(r1, 0). < 
n—æo  0€6 


DÉMONSTRATION du théorème 2. Soit IT une distribution la plus défa- 
vorable sur l", de sorte que x(}) = +n(}Y) est une décision minimax du jeu 
(78, T, V). Le théorème 1 nous dit alors que x1(4) = xn(7*) sera une déci- 
sion asymptotiquement bayésienne pour la distribution Q associée à IT et 
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pour prouver le théorème il suffit de s'assurer que Q et +. satisfont les con- 
ditions du lemme 1. EL 

Désignons par Mn le support de la distribution II. Les théorèmes du 
$& 3 nous donnent alors 


Pr), y) = €, y € Nn, 


(9) 
sup P(r(-) < c. 
ver 


Mais si 0 = 61 + y/Vn, on a la convergence W{(x1(-), 8) — P(æn(:), y) uni- 
formément en 7 (cf. (7)). Ceci et (9) entraînent (8). Æ 


ANNEXE I 


THÉORÈMES DE TYPE GLIVENKO-CANTELLI 


Dans cette Annexe on prouvera des propositions qui entraïîneront les théorèmes 1.4.1 et 
1.42. On se servira sans explications des notations du paragraphe 1.4 dans lesquelles ces théo- 
rèmes sont formulés. Démontrons tout d’abord une version générale auxiliaire du théorème de 
Glivenko-Cantelli. 

DÉFINITION 1. On dira qu’une classe # d'ensembles de 8, = 9" est Jiniment- 
approximable (par rapport à une distribution P) si pour tout « > 0 il existe une autre classe 
d'ensembles (+), composé d’un nombre fini N = N(c) d'éléments S:, ..., Sn, Si € D”, telle 
que pour tout BE & on peut exhiber des ensembles 4, et A2 de S(«) jouissant des propriétés 
suivantes 

A1 CBC Aa, 
(1) 
P(A2 — A1) < €. 


Définissons l'addition, la multiplication et la complémentation sur les classes ®. On 
appellera classes 8, + ®2 et 8,82 respectivement les classes d'ensembles de la forme 4 U B 
et À NB, où À € 8 et B € 82. On appellera complémentaire & la classe des complémentaires 
À, À € Q. 


THÉORÊME 1. 1) Supposons que Xx = [Xejn À € P et que 8 est une classe finiment- 
approximable. Alors 
mp IP#(8) — P(B)| ;+ 0. (2) 
B 


2) L'ensemble des classes finiment-approximables est stable pour les opérations définies. 


DÉMONSTRATION. La première proposition s'établit à l'aide des raisonnements utilisés 
pour le cas scalaire dans le théorème 1.2.2. Pour B € & et e > O0 donnés, on peut exhiber un 
N = N(e) et des ensembles 4, et A2 doués de la propriété (1). On a pour ces ensembles 


P:(8) — P(B) & PA(A2) — P(4:1) < PA(A2) — P(A2) + c, 
PA(B) — P(B) > PA(A1) — P(A2) > P4(Ai) — P(A:) - «. 
Donc " 
[A LIPACS«) — P(Sa <e1 € { sup PNB) — PO) < 2e}, 


où S1,..., Sn Sont des éléments de & (+). Comme PS:) P(Sz), on en déduit sans peine 
(2) (comparer avec la démonstration du théorème 1.2.2A). 

La deuxième assertion du théorème 1 est presque évidente. Soit donné « > 0 et supposons 
que Sue) et 2e 2) sont des classes approximant @. et ® respectivement. Supposons par ail- 
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leurs que À et B sont des ensembles quelconques de %, et 2. Les relations €; + €e2 = € 
A1 C À C A2, P(A42 — A1) < er (Ai € Sic)), 
B1 C BC B:, P(B2: — B1) < e2 (B: € G:e2)), 
entraînent 
A1B1 C AB C A2hBà, 
A21B1 — A1B1 € (A2 — A1) U(B2 — Bi), 
P(A2B2 - AB) <e. 


Donc, la classe ®1@2 est finiment-approximable. La somme ®: + ® et le complémentaire ® 
se traitent de façon analogue. < 


COROLLAIRE 1. Si = R°, Xux = [Xolh € FE alors 
supiFat) — F(1) | 3, 0 
{ 


lorsque n — ©, où Ft) est une fonction de répartition empirique. 


DÉMONSTRATION. On voit sur la démonstration du théorème 1.2.2A que les classes &,; = 

= (yER":y;, < tj}, —-o < 1, < ©, sont finiment-approximables pour tout j = 1,... 
. M. Pour système © (6) il suffit de prendre des semi-espaces {y, < 4} et (3; < &},k= 
= 1,..., N, où zZ sont définis dans (1.2.6). 

La classe des angles 8 = f#1®2...8, sera aussi finiment-approximable en vertu de la 
deuxième proposition du théorème 1. Reste maintenant à se servir de la première proposition 
du théorème 1. < 

Le corollaire 1 n'est autre que le théorème 1.4.1. 

Considérons maintenant les classes # satisfaisant la condition (T}) suivante. Soit K4 le 
cube 


Ku = {y =Un,..., 7m): max bal < M}. 
1SkÇem 


(T°) Les ensembles B € 8 jouissent de la propriété suivante : tout <-voisinage l'3 de la 
frontière Ta = d(BN Kw) possède une mesure de Lebesgue (un volume) (TT )) < vE, M), 
où ç ne dépend que de ses arguments et g{e, M) — 0 lorsque € — 0 pour tout M. 


THÉORÈME 2. 2 = R”, X € P, où P est une distribution absolument continue par 
rapport à la mesure de Lebesgue, alors toute classe 8 satisfaisant la condition (T') est finiment- 
approximable et, par suite, est justiciable de (2). 


DÉMONSTRATION. Remarquons tout d’abord que le problème sur l'espace R° peut être 
ramené à un problème sur le cube Ky au sens suivant. Supposons que pour chaque M fixe, 
il existe une classe S de sous-ensembles de KA telle que pour tout B' ER et B = B'NKx 
soit réalisée (1). Dans ces conditions & sera finiment-approximable. En effet, pour & > 0 choisi 
dans (1), trouvons un M = Me), tel que P(Kw) > 1 —e€ et posons Aï = A1, 4j = A2 U 
U X5, où À, sont les ensembles de (1), Ka le complémentaire de Kw. Il est alors évident que 


Ai C B° C Aï, P(Aj —- An < 2e. 
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Nous pouvons donc considérer que P(Kw) = 1 et que # est composé de sous-ensembles 
de Ke. 


Prenons pour © les figures À; constituées des diverses réunions des cubes fermés d’arêtes 
ô et de sommets 


U16, ...,Jm.0), —M/8 < jx < M/6, kK=1,...,m, 


(pour simplifier on peut admettre que 6 est aliquote de M). Définissons les ensembles 4, et 
A2 respectivement comme les réunions de tous les cubes appartenant à B et l’intersectant. Il 
est évident que 


A CBC Ai, 
plA2 — A1) < pT V7) < o(26Vm, M). 


Le membre de droite de cette inégalité peut être rendu aussi petit que l'on veut par un choix 
convenable de 6. 
Par ailleurs P est absolument continue par rapport à #. Donc, pour & donné, on peut trou- 
ver un y = y{e) tel que sup P(4) < €. Si maintenant l'on choisit à de telle sorte que 
AU) <7y 


©{(25Vm, M) < 7, on obtient 


P(A2 — A1) <e. <Æ 


COROLLAIRE 2. La classe @ de tous les ensembles convexes est finiment-approximable et, 
par suite, pour les distributions P absolument continues on a 


sup |PXB) — P(B)| 4 0. 
Be 


En effet la plus grande « aire » d’un ensemble convexe dans KA est égale à 2(2M)"°! 
(qui est Ik aire » de Kw), et le volume maximal u((9X ar) ) d’un € -voisinage de 9K 4 est au plus 
égal à 2e2m(2M)" 7 !. Ceci exprime que la condition (T°) est satisfaite. < 

Le corollaire 2 coïncide avec le théorème 1.4.2. Dans le $ 1.4 on trouvera une remarque 
relative à l’importance de la condition de continuité absolue de P. 

Il est immédiat de voir que la condition (T°) sera également remplie pour les classes 
d'ensembles non convexes à frontières suffisamment différentiables. 


ANNEXE II 


THÉORÈME LIMITE FONCTIONNEL 
POUR PROCESSUS EMPIRIQUES 


On se propose de prouver l'assertion suivante (théorème 1.6.3). Supposons que 
WC) = Vn(EME) - 1) 


est le processus empirique défini dans le $ 1.6 et que w°(r) est un pont brownien. 


THÉORÈME 1. Si f est une fonctionnelle mesurable de D{0, 1) dans R, continue sur 
l'espace C(0, 1) pour une métrique uniforme, alors pour n —+ 


Sr) = f{w°). 
La démonstration de ce théorème passe par celle des deux lemmes suivants. 


LEMME 1. Les distributions finidimensionnelles des processus w” convergent faiblement 
pour n — vers les distributions correspondantes du processus w°. 

DÉMONSTRATION. Considérons les vecteurs aléatoires (m7 + 1)}-dimensionnels 

w = (Asw”, ...s AW), 
où Ag désigne, comme dans le $ 1.6, les écarts 
Ag = 8(j+1) — g(), 
ljei } Us j = 0,..,Mm (0 = 0, (m+1 = 1. 

Désignons par w° le vecteur analogue pour le processus w°(r). Pour prouver ce lemme, il suffit 


en vertu du deuxième théorème de continuité de montrer que w” = w°. 
Trouvons les fonctions caractéristiques de w” et »#°. Pour le vecteur u = (wo, ...us) On a 


Es" = Ecxp (Ève) = Eap De _ 2). 
J=0 J=0 


Où À, = fj+1 — 14 j = 0,..., m, et w(f) est un processus wienérien standard. 
Représentons l’exposant de l’exponentielle par une somme de variables indépendantes. En 


posant pour simplifier Su, = U, on obtient 
J=0 


Dsuta;w — wii) 4) = D} - Ujayw 


J=0 J=0 
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Comme EE" = e-"“#2 il vient 
: LS: 
Er" — - {-; Êw - wa) = p{-} S ;u?a, — u)}. 
j=0 J=0 


Considérons maintenant la quantité Er" . Supposons comme précédemment (cf. $ 1.6) 
que 
xa(t) = nFAL). 


On sait alors que (cf. (1.6.1)) 


P(Aors = ko, ..., Aura = kan) = Er 40... Ar. 


Le second membre est composé des termes du développement du polynôme (4o + . . . + Am)”. 
En se servant de ce fait, on obtient 


1 “JAJra 
= >; Hi — gr (ao)... (é"-Au) = 
= (e*040 + ... + e“"An)". 
Puisque A;w" = Vn(FNt,.1) — Ft) — Àj) = (4x, — nAj)/Vn, il vient 
Es = op f- Dune) En{ Dua} - 450 Serra)" 

J=0 Vn J=0 0 

D'où l’on déduit, grâce aux égalités 
= 1+a+1 @/2 + O(x), In(l + «) = & — @/2 + O(ax!) 


que 
InEe*" = — iUVn + nf _ D _ y = 
J=0 
M se - 2 L + ow9) | - 
j=0 
2 
ur + [LS da + 2 + Ou) = 
2n 2n 
Vn pare 
= - - > ua, + u| + O(n” 2) 
J=0 


pour u fixe et & = o(1). En comparant avec (1) on voit que pour n — 
Eee" — En (2) 


Reste à appliquer le théorème de continuité pour les fonctions caractéristiques des distribu- 
tions multidimensionnelles (cf. [11]). 
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LEMME 2. Pour tout € > 0 
lim.supP(wa(w") > €) — 0 . (3) 


lorsque À — 0, où wa(y) est le module de continuité de la fonction y € D(0, 1) : way) = 
= sup Ly(r) — }y{2)|. 


0Cn<nç! 
l1-#içà 


DÉMONSTRATION. Sans perdre en généralité, on peut se borner aux seuls nombres dyadi- 
ques A = 27’. Pour m > lon a 


NES ca, À). 
2” "2m 


k j 
{m] 
WA = max pr (Æ) _ (2)! 
7 É É 
2 
1e x) a 
CS k-1 k 
er 


Pour prouver (3), considérons 


P(ws(w") > 3 £< Pl) > >t) + (Uf. ( a. : F) > }) (4) 


Voyons le premier terme. Il est immédiat de voir que pour / > 3 l'événement 


ANG) 5) 


r=l ko! 


où 


entraîne {wl"! < : }. Vu que l'inégalité inverse est réalisée pour les événements complémentai- 
res, il vient 


me(UU(-(:)--(5)1>23)) 
OMC CCECERE 


n (; =) _ r(# 7 = )) est la fréquence d'accès des éléments de l'échantillon dans 
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un intervalle de longueur 27”. En d'autres termes, ceci est la somme S, des variables aléatoires 
dans une série de Bernoulli de n épreuves dont la probabilité de l'issue 1 est égale à p = 27”. 
Comme (cf. {11]) 

E(S« — np) = nGQ = p} + (1 — p}p°) + 3ntn — 1)p°Q — pŸ < np + 3n°p°, 


une inégalité de type Tchébychev nous donne 


k k - 1 € eVn 
P WE) — w —- | = _ 
(| (5) ( 7 ) >) e(s bike &) < 
(np + 3n°p°)* nm 3r4 
Se + ———. 
n F2n F2 


Le second membre de (5) est par conséquent au plus égal à 


HE & | (= 5) 
—— + LC— + — ). 
e‘n € “2° c°n e+2! 


ie 


m © 
où c est une constante absolue (2" — m°/9 lorsque m—æ, 2,27" — 227! lorsque / — 


rœi re 


— ©). En posant m = 3 log:n, on obtient 


| [ 
limsupP(O"! > e) < © ——. 
no € 2! 
Cette expression peut être rendue aussi petite que l'on veut par un choix convenable de / (ou 


de A). 
Estimons maintenant le deuxième terme de (4) qui est au plus égal à 


k—1 Kk 
27P  — e }. 6 
L'événement de (6) exprime que si l'on fixe mm, l'écart entre n(F{u) — u)et n(FAK/n°) — k/n°) 
sera supérieur à Vn sur l'intervalle J(k — 1)/n°, k/n°[ de largeur n ”?. Comme Vn + > 3 pour 
n assez grand, il faut pour cela que l'intervalle J(4 — 1)/n°, k/n°[ contienne au moins 2 élé- 
ments de l'échantillon X. Autrement dit, l'événement {s, > 2) doit se produire, si l’on se sert 


des notations de la série d'épreuves de Bernoulli, pour p = n°. Mais comme 1 = (1 - 
- p+p} = (1 - p}" + npQ - py' 7" + O(n*p?), il vient 


P(Sa > 2) = 1 — (1 — p}" — npQ - p}""! = O(np°). 


Donc, (6) est au plus égal à n°O(n 7“) = O(n =“) = oi). < 
DÉMONSTRATION du théorème 1. Pour tout x € D(0, 1), posons 


bd = sup hu), x) = ju JU). SX) = inf 0) 


Os<t<I! b-r<e 


ct désignons par x, la ligne polygonale continue de nœuds (£A, x{(£A) = xa(KA)), & = 0, . 
.. 1/À, où À est une partie aliquote de 1. Remarquons que 


[x — Xa < wa(x) (7) 
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et que f\xa) sont des fonctions continues du vecteur (x(0), x{A), x(24), . .., x{1)). Le lemme 
1 et le deuxième théorème de continuité nous donnent pour ñ — 


SAW) = JWS. (8) 
Par ailleurs, la continuité de w° et de la fonctionnelle /f entraînent 
Iwé — w°] & wa(w°) = 0 pour A — 0, (9) 
LNW°) — fw°) pour € —+ 0. (10) 
P 


De la définition de fil découle éd LV) < x) sur l'ensemble [y - x] < «. Donc 
PU) < 1) < PUS) < L 13 — w] < «) + POW3 - w] > 0) < 
< PUTW) & 1) + Plua(w”) > c). 
En passant à la limite pour #7 — © et en se servant de (8) et (9), on obtient 
lim.sup P(/{w") < 1) < PUS (w£) < 1) + lim.sup PQ) > «). (11) 


On trouve de façon analogue 
PUS WE) & 1) & PUS. (w°) & 1) + Pwa(w) > 2). 


Portons maintenant la dernière expression dans (11) et passons à la limite lorsque A — 0. De 
(9) et du lemme 2, on déduit alors que 


lim.sup PUUw") & 1) & PUS (w9 & 1). 


De là et de (10), il s'ensuit 
lim.sup PU{w") < 1) < PUWwW) S 1). 


ao 


On établit de façon analogue l'inégalité contraire 
lim.inf PU(w") < 1) > PUY{w°) < 1). 


Ces inégalités expriment de toute évidence que /{w”) = /(w°). <Æ 

Considérons encore un théorème limite fonctionnel pour des processus empiriques, qui 
rappelle beaucoup le théorème 1. 

Supposons qu’en plus de l'échantillon Ÿ de taille ñ; nous est donné un échantillon Y de 
taille 72 indépendant de X et distribué suivant la même loi uniforme sur {0, 1]. Pour la commo- 
dité on désignera ici les fonctions de répartition empiriques de X et Ÿ respectivement par F(f) 


et Fÿ(t). Posons 
— mine F®: F: 
Wx,Y{{) = D (FX) — Fÿ(0). 


THÉOREME 2. Si une fonctionnelle f satisfait les conditions du théorème 1, alors pour 
nn, — ©, F2 —* © 
A{Wx.r) = f(w°). 


DÉMONSTRATION. Prouvons ce théorème sous la condition simplificatrice que 


de € [0,1] 
| am 0 k 
M +2 . 
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lorsque 7 — . On a 


vx ri) = pus LES) = D = (FHO = D] = Vawxt) + VT— a w4), (2) 
1 


où wx{(1) et wyr(1) sont des processus empiriques correspondant aux échantillons X et Y. 
Comme wa(x + ÿ) & walx) + wa(y), on déduit aussitôt de (12) et du lemme 2 l'analogue 
du lemme 2 pour le processus wx.r{f) : pour tout « > 0 
lim.sup P(walwx, y) > e) — 0. 


ne 


La convergence des distributions finidimensionnelles de wx. » et de w° découle également 
de (12). En effet, désignons par wx,r, wx, wy les vecteurs construits d'après les processus 
wx. 0), wx1), wy(t) exactement comme le vecteur w” l'a été d’après w”(r). En s'appuyant alors 
sur l'indépendance de X et Ÿ et sur la démonstration du lemme 1 on obtient 


Een = Eeive mg VTT at of - ne in ( 2; uja, - u)} | 


J=0 


Pour le reste la démonstration du théorème 2 est calquée sur celle du théorème 1. < 


ANNEXE III 


PROPRIÉTÉS DES ESPÉRANCES MATHÉMATIQUES 
CONDITIONNELLES 


Dans le $ 2.9 nous avons énuméré les principales propriétés de l'espérance mathématique 
conditionnelle. On produit plus bas les démonstrations de ces propriétés dans l'ordre de leur 
énumération dans le $ 2.9. 


la. E(ctiN) = cE(EN. 


ib. Eft: + 219) = E(tlM) + E(2]%. 
lc Si ti < E ps. alors E(tÏN) < E(E2]9 ps. 


Pour établir la propriété la, il faut s'assurer en vertu de la définition 2.9.2 que 
1) cE(£|DN) est une fonction {-mesurable, 
2) E(CE(EIM); À) = Elct À) pour tout À € 9. 
La première propriété est évidente. La deuxième découle des propriétés de linéarité de 
l'espérance mathématique ordinaire (ou d’une intégrale ordinaire) : 
E(E(&|N); 4) = cE(E(EIN); À) = cE(E À) = E(c£, À). 


La propriété 1b s'obtient de la même façon. 
Pour prouver la propriété lc, on posera pour simplifier £ = E(£|%). Alors, pour tout A€% 


[EdP = Et: 4) = El: À) < El&: 4) = | &dr, 


A A 


[& - É)dP > 0. 


A 


D'où il s'ensuit que Ë - Ë > O ps. 
2. Inégalité de Tchébychev. Si £ > 0,x > 0,ona 


EC 


X 


P(E > x) < 


Cette propriété découle de 1c puisque P(£ > x\9) = Ef/x>n|%), où Z4 est l'indicateur de 
l'événement À, et que Jx>n < Elx. 

3. Si A er o(E) sont indépendantes, E(tIN) = Et. Comme ÿ = Et est une fonction %-me- 
surable, il reste à prouver seulement la deuxième condition de la définition 2.9.2 : pour tout 
AEY%,ona 


‘ E(É; A) = E(£; A). 
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La véracité de cette égalité découle de l’indépendance des variables aléatoires /4 et £ et des 
relations 


E(£: A) = E(tl4) = Et-El4 = ÉP(A) = E(Ë 4). 


4. Théorème de convergence monotone. Si 0 < £, ? £ p.s., alors E(£&4]9) ? E(EIM) p.s En 
effet, la relation £,,1 > £&, p.s. entraîne £,., > £, p.s.. où &, = E(£.|N). Il existe donc une 
variable aléatoire £ H-mesurable telle que Ë, ? Ë p.s. Le théorème ordinaire de convergence 
monotone nous dit que pour tout À € % 


[Edp — (éd, (&dp — [or 
A A A A 
Les premiers membres de ces relations étant confondus, il en sera de même des seconds. Ce 


qui exprime que Ë = E(£|N). 
S. Si n est réelle et A-mesurable, alors 


ElnéiN) = nE(EIN). (1) 
Si n = Z» (l'indicateur de B € M), cette proposition est vraie puisque pour tout À € À 


(EUsE9dP = (iotdP = (tp = [Etap = | LE(S. 


A A AB AB A 


De là et de la linéarité de l'espérance mathématique conditionnelle il résulte que cette proposi- 
tion est valable aussi pour toute fonction simple 7. 

Sië > Oetn > 0, en considérant une suite de fonctions simples 0 & n, ? 7 et en appli- 
quant le théorème de convergence monotone à l'égalité 


E(nrëlN) nn E(E|N, 


on obtient (1). Le passage à des £ et n arbitraires s'effectue comme d’habitude en considérant 

les parties positives et négatives des variables aléatoires £ et n. Ceci étant, pour que les différen- 

ces et sommes obtenues aient un sens, il faut exiger l'existence de E|£| < © et ElEn| < ©. 
6. L'inégalité de Cauchy-Bouniakovski 


EE < [ERINE(SI90) "7? 


se prouve exactement comme pour les espérances mathématiques ordinaires (cf. par exemple 
[11]), puisque la démonstration n'utilise aucune propriété des espérances mathématiques hor- 
mis la linéarité. 
L'inégalité de Jensen 
g(E(EN) < EG(EHIN (2) 


pour une fonction g convexe vers le bas découle des relations suivantes (comparer avec [11]). 
La fonction g(x) étant convexe, pour tout y il existe un nombre g.(y) tel que 


gx) < 80) + (x — y)g10). 


Posons ici x = £, y = £ = E(£|%) et prenons l'espérance mathématique conditionnelle des 
deux parties de cette inégalité. La relation annoncée résulte de ce que 


EI — De(ÜIN = e(DELE - M = 0, 


en vertu de la propriété S. 
7. La formule des probabilités totales découle de la propriété 8 si pour % on prend une 
tribu triviale. 
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8. Si A C  C S, on a la formule de « moyennisation successive » 
E(tIN) = E(E(&%:)120). 
En effet, pout tout À € % et du fait que À € Y, il vient 
fEŒtiaionap = (EP = [ep = (Ettinar. 


A A A A 


Signalons en conclusion que la propriété 5 admet la généralisation suivante sous des con- 
ditions larges. 

SA. Si n est A-mesurable et {w, n) est une fonction mesurable des variables w € © et n€ 
€ R*, alors 


Evo, m9) = Vu, n), où Yu, y) = Eve, y)IN). (3) 


On prouvera cette propriété sous l’hypothèse qu'il existe une suite de fonctions simples 


nr, telle que {w, 7x) ? ww, n), Ÿ{w, 14) ? Ÿ{w, n) p.s. En effet, supposons que 7, = }y+ pour 
w € Ar C Y. Alors 


Po, Ta) = Sel, Jallar- 
k 
De là on déduit que (3) est réalisée pour les fonctions 7, en vertu de la propriété 5. Reste à 


appliquer le théorème de convergence monotone (propriété 4) à l'égalité 
E(y{w, 7h)|I) _ Y{w, Ma). 


ANNEXE IV 


THÉORÈME DE FACTORISATION DE NEYMAN-FISHER 


On prouve ici le théorème 2.12.1. 

Pour alléger les notations on admettra sans perte de généralité que n = 1 (en effet l'échan- 
tillon X peut être multidimensionnel). D'autre part, puisque nous avons convenu que l’espace 
(Z, ®) est l’espace des échantillons, on écrira P.(B) au lieu de P,.(X € B). La dimension de 
la statistique S sera désignée par L 


THÉORÈME 1. Soit remplie la condition (A,). Une statistique S est exhaustive si et seule- 
ment s'il existe une fonction Y{8, s) positive mesurable par rapport à s € R' et une fonction 
h(x) positive mesurable par rapport à x € %, telles que 


dPe 
Jfolx) = di (x) = #8, S(x)) Ax), |#l-p.p. (1) 


Démontrons préalablement deux propositions auxiliaires. Introduisons la 
Conorrion (D). La famille > = {Pe}oçe Satisfait la condition (A) (Cest-à-dire est domi- 
née par la mesure À), où la mesure de probabilité X est de la forme 


À = D cPe 4 e6,c> 0, Sa = |. 
i d 


THÉORÈME 2. La condition (A,) est nécessaire et suffisante à la réalisation de la condi- 
tion (D). 


DÉMONSTRATION. La nécessité est évidente. Prouvons la suffisance. Sans perdre en géné- 


ralité, on peut admettre que # est une mesure de probabilité. En effet, on peut toujours rempla- 
cer la mesure pa par la mesure 


u°(A) = 


où {B;} est une partition de l’espace Z; telle que {(B;) < ©, j = 1,2,... 

Soit ?la classe de toutes les mesures de probabilité de la forme P = D Pa, & € ©, 
a > 0, dx = 1. Il est évident que # D et vérifie aussi la condition (4,). 

Désignons p = dP/dp et considérons la classe @ des ensembles C € 9 pour lesquels il 


existe un P € æ tel que p{x) > 0 p.s. sur C, P(C) > 0. Soit C1, C2, . . . une suite d'ensembles 
de Ç telle que 


mCi) — supn(C). 
ces 
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_ | D) 
Comme C, € G, il existe un P” € .tel que p!? = 


> 0 p.s. sur Ci. Posons 
Co =UCx P®- S'cpt, p® = 5; cp" 
i 4 


pour certains © > O, y] = 1. Il est évident que p® > 0 sur Co et par suite Co € C. 

On prouvera la proposition du théorème lorsqu'on aura établi que P‘”(4) = 0 entraîne 
P(4) = 0 pour tous les P € > Ceci exprimera que P, est absolument continue par rapport 
à x = PO et que la condition (D) est réalisée. 

Supposons donc que P‘°(4) = 0 et soit P un autre élément quelconque de.> Désignons 
C = {x: p(x) > 0). La proposition annoncée résultera des trois relations suivantes : 


P(ACo) = 0, P(ACOC) = 0, P(AC0C) = 0, 


où B est le complémentaire de B. La première de ces relations découle du fait que P°(4Co)= 
= 0, p°%(x) > 0 sur Co et donc {ACo) = 0. La deuxième, du fait que p{x) = 0 sur C. Prou- 
vons la troisième par l'absurde. En admettant que R = ACC on trouve m{R) > 0, {CoUR)- 
— (Co) > 0. Ce qui contredit l'égalité 


(Co) = supu(C), 
cec 


puisque CO EG REG COURE C' < 
Ainsi, nous avons établi que si la condition (4,) est réalisée, il existe une mesure À pour 
laquelle est remplie la condition (D). 


THÉORÊÈME 3. Une statistique S est exhaustive si et seulement s'il existe une fonction 
ge(s) mesurable telle que 


Pt = SG) D-pp @ 


DÉMONSTRATION. Pour tout B C R! mesurable, posons S”'(B) = {x E€:7: S(x) € Bl € 
€ 3 ,.et considérons la distribution G. de la statistique S induite sur R’ par la distribution P, : 


dPe 
Ge(B) = Pe(dx) = x COM). 


s°' s”') 
Considérons aussi la distribution 


»(B) = | (dx). 


57") 
Il est clair que G4 est absolument continue par rapport à », puisque »(B) = 0 entraîne 
Ge(B) = 0. Il existe donc une densité g.(s) mesurable par rapport à s telle que 


Go(B) = | ge(s)(ds). 
8 
Supposons maintenant que S est une statistique exhaustive, donc qu’il existe une distribu- 
tion conditionnelle P(AIs) = Pe(AÏS(x) = s) indépendante de 8. Par définition de la distribu- 
tion conditionnelle, pour tout 4o € o{S), on a 
: | P(AIS(x))Peldx) = Po(A N Ao). 
A0 
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De là il s'ensuit également que 


| PAISGAdx) = AA N Ab). 
A 


Ceci exprime que P(4|S) est simultanément une probabilité conditionnelle par rapport à À. On 
désignera cette probabilité comme l'espérance mathématique conditionnelle E;(74|S) de l’indi- 
cateur LA. 


Pour 4o = R' on déduit de (1), en vertu des propriétés de l'espérance mathématique 
conditionnelle, 


Pe(A) = [P(AIS()Po(ax) = EoP(AISO) = [PtAlsIGutAS) = PtAISIEs(s>rtas) = 
= [PAISGEASGDAAX) = [EGUISCO)EA SAGE) = 


= (EGage(SDISGHAG = [lag SAGX) = | go(SGAGAE). 
A 
Ce qui, de toute évidence, équivaut à (2). 

Supposons maintenant qu'est remplie (2). On prouvera que l'espérance mathématique 
conditionnelle E;(/1|S) associée à la distribution À (cette espérance ne dépend pas de 8) est en 
même temps l'espérance mathématique conditionnelle P,.(41S) pour tous les P, € .> 

Fixons À et 0 et introduisons une mesure 7 sur 9 à l’aide de l'égalité 


HO) = Pe(4O), C € 9, 


de sorte que dy/dPe = 14, dy/dX = Tage(S(x)). 
Pour tout C € o{S), on a 


NC) = | ZaPo(dx) = Eolalc = EolcEo(lalS) = | Eet4lS)Potdx). (3) 
C C 


Si donc l'on traite y, P, et À comme des distributions sur o{S), on obtient 


= = Ee(24S), 
dP 
a = Ee(/41S) _ = E(/4S)ge(S). 


Par analogie à (3) on a sur o(S) 


+ = Ex(ago(S)S) = go(S)Ex(L4lS). 


D'où il s'ensuit que À-p.s. (ici et plus bas par À et P, on comprendra des distributions sur o{S)) 
Eo(/alS)ge(S) = E\(/4|S)ge(S). (4) 
Utilisons maintenant la propriété (D) qui dit que si (4) est réalisée X-p.s., elle le sera Pe-p.s. 
Par ailleurs, on a Ps-p.s. 
Su) = -F* 0 
ge(S(x)) = ñ (x) # 0. 


Donc 
Pe(AÏS) = Eo(l4lS) = Ex(Z4lS), Po-p.s. 


Ce qui exprime que la quantité E; (Z4/S) qui est indépendante de 8 peut être prise pour probabi- 
lité conditionnelle P,(AIS). < 
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DÉMONSTRATION du théorème 1. Si S est une statistique exhaustive, la relation (1) découle 
du théorème 3, puisque 


dPe dù 
Sex) = Ada: = go(S(x)) di: (x), 


où il faut poser ge(s) = 146, s), _. (x) = A(x). Réciproquement si (1} a lieu, alors 


a de # = Day, SA) = SUI)A(X). 


Donc, si r(S(x)) > 0, alors 
dPe _ dPe du _ V6, S(x) 


dx du d nSx)) 


dP 
Si r(S(x)) = 0, on peut définir — (x) de façon arbitraire, puisque À est une mesure et par 


suite P,, la mesure de l’ensemble de tels points x, est nulle. En posant ge(s) = #{8, s)/r{s) et 
en appliquant le théorème 3, on trouve que S est une statistique exhaustive < 


ANNEXE V 


LOI DES GRANDS NOMBRES ET THÉORÈME LIMITE CENTRAL. 
VARIANTES UNIFORMES 


1. Loi des grands nombres dans le schéma des séries. Considérons une suite {£1,]%-1, 
n = 1,2,..., de vecteurs indépendants équidistribués dans un schéma de séries (la distribu- 
tion de fx, dépend de ñn) et supposons que Et, = 0. 


Désignons ÿ, = Ex.n. 
ko! 


THÉORÊME 1. Supposons que 
nEltrn| = An < a < ©, 
nEIEk.nl; |Ex.xl > 7) —+ 0 (1) 


lorsque n — © pour tout r > 0. Alors, pour tout : > 0 
P(ITal > t) nd 0. 


DÉMONSTRATION. Considérons les variables aléatoires ££, obtenues par troncature de £r.n 
au niveau 7 : 


Et, = En Si | Ex. «| < 7, 
TO si lEl > r. 


En vertu de la condition (1) 
P(Ein À Ein) = P(|Es) > 7) <- El. (Ent > 7) = o(1/n), Etis = O(1/n), 
E(£: +) = E(Eî «: lË:.»| £T) < TE(|E.nl; lE.nl < 7) = ra/n - El|£r.rl; [Er.nl > 7)). 
Donc, pour tout € > 0 et n assez grand 
E(£i,) < 2ar/n, Ntis < 2a7/n, nEtin <t/2. 


Posons ÿ, = S En. Pour les ñ assez grands, on a alors 
ji 


Pr > +) & PAU Ie # Bal) + PT >e). 
Ji 


Le premier terme est au plus égal à nP(£:, # £1») = O(1), le second, à 


P(Iÿ4 — Ef4l > e</2) < 4Vr4/c? < Bar/c?. 
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Puisque 7 est arbitraire, la valeur obtenue peut être rendue aussi petite que l’on veut quel 
que soit & > 0. En choisissant maintenant n assez grand, on peut rendre la probabilité P(|#,|> 
> €) arbitrairement petite. <Æ 

2. Théorème limite central dans un schéma de séries. On admettra que 


Ets = 0, EE < ©. 


Désignons où = nEtfntin Ÿr = DE. 
J=1 


THÉORÈME 2. Supposons remplies les conditions de Lindeberg 
| REIEal; (El > 7) — 0, n — ©, 
pour tout r > 0. Si 62 — &, alors 
Fan € Po.o:. 
CoOROLLAIRE 1 (théorème limite central ordinaire). Si £1, 2, . . . est une suite de vecteurs 


indépendants équidistribués, Etx = 0, = Etlts < ©, 5, = D &, alors pour n — © 


K=) 


= € Po.c’ . 


n 


Cette proposition découle du théorème 2, puisque les variables aléatoires £r,n = £x/Vn 
vérifient les conditions dudit théorème. 
DÉMONSTRATION du théorème 2. Considérons les fonctions caractéristiques 


Va(r) = Ee“69, pat) = Ee"t59 = 400). 


Pour prouver ce théorème, il faut s'assurer que pour tout f 


Pnlt) — nf gra] 
lorsque 7 — co. 


Utilisons la version du théorème 1 établie pour le cas scalaire dans [11]. Les fonctions Ÿ,(r) 
et gA(f) peuvent être traitées comme les fonctions caractéristiques 


Vu) = Eeftir et pv) = Eeiîn 
des variables aléatoires ET, = (Ein, w), Ÿn = (fm w), Où w = t/|t|, v = |[t|. Montrons que 


les variables aléatoires scalaires ££., satisfont les conditions du théorème 1 pour le cas scalaire. 
Il est évident que 


Etfn = 0, nE(£*1) = AE(Ei.n w)? = woauT — ww). 
La réalisation de la condition de Lindeberg résulte de l'inégalité évidente 
nE((Ei.n, w)?; [(Er.m w)| > T) < nE(lË1.nl°; Er .nl > 7). 


Donc, pour tous v et w (c'est-à-dire pour tout f) 


Pnft) = Eel*: — a {- ; Pur} = nf -} var) . 
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3. Théorèmes limites uniformes pour les sommes de variables aléatoires dépendant d’un 
paramètre. On démontre ici les théorèmes 29.1 et 29.2. 
Soient X € Pe et a(x, 0) une fonction mesurable de Z°x © dans R’ donnée, 


Sn(8) = >,atx, 6). 
j=i 
On dira que l'intégrale a(8) = atx, 0) Pe(dx) converge uniformément en 8 dans un domaine 
Go CO si 
sup f la(x, 8)|Pe(dx) — 0 
0€ 00 
let. ))>N 

lorsque N —+ ©. 

THÉORÈME 3 (loi uniforme des grands nombres). Si l'intégrale a(8) = fatx, 8)Pe(dx) con- 
verge uniformément en 0 dans un domaine Oo C ©, alors 

Sn(8) 


Fn(8) = — a(8) — 0 (2) 


Pe 
uniformément en 8 € Oo. 


DÉMONSTRATION. Supposons que (2) n’a pas lieu. Il existe alors € > 0, 8 > O et une suite 
On € Oo tels que 
(J 
ru ( | > +) > 6 (3) 
pour tous les n. 


Considérons les variables aléatoires 
a(x, 04) = a(0,) 
a 


F ns 
Il est aisé de voir qu'elles satisfont les conditions du théorème 1. En effet, posons 4, = 
= {x: |a(x, 6,) — a(6,)] > rn}. Alors 
nEs.l&al < 22 = 2 sup [la(x, OPe(dx) < «, 
°€60 


nEe(l&uel: Ia] > 9 = | letx, 6.) — a(6.)]Pe.(dx) — 0. 


À 


La dernière relation résulte de la convergence uniforme de l'intégrale a(8@) et de l'inégalité 
de Tchébychev 


— — (. 


Eo.l£.n 
Pe,(A:) _— < = 


Ce qui vient d’être dit exprime que la suite {£;,]) vérifie la loi des grands nombres 


re. ( Ze. > ) —+ 0 


pour tout € > 0. Ceci contredit (3) et prouve le théorème. < 
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Passons au fhéorème limite central. Supposons que Esa(x:1, 0) = 0. 


Posons (8) æÆ loy(0)1 = Eoa/(x, 8)a(x:, 9) et désignons par ax, 0), j ae 1, .. LA les 
coordonnées des vecteurs a{x, 6). 


THÉORÈME 4 (théorème limite central uniforme). Supposons que les intégrales 0,8) = 
= Esafu, 8) convergent uniformément dans @0CO, c'est-à-dire que 


supoy(8) < ©, 
LE 
supEo(ax, 8); lafxi, 8) > N) — 0 (4) 
8e 
lorsque N — ©. Alors 
a € 0,0! (5) 
Vn T(9 


lorsque n — « uniformément en 8 € Oo. 


DÉMONSTRATION. La non-réalisation de (5) exprime qu'il existe une suite 8, € ©o pour 
laquelle les sommes des variables aléatoires £;, = a(x;, 0.)/Vn ne convergeront pas en loi vers 
Po.0°(0.)- 

L'adhérence de { 02(8), 0 € 0} étant compacte, on peut admettre que la suite (8, est choi- 
sie de telle sorte que pour une matrice 0° l'on ait 


(84) = nEstintin + À. (6) 


La condition de non-réalisation de (5) exprime alors que + En ne convergera pas en loi 
Jj=1 
vers o..’. Or ceci est impossible en vertu du théorème 2, puisque £,;, satisfont les conditions 
de ce théorème. En effet, en vertu de (6) il suffit de vérifier la condition de Lindeberg. Pour 
les ensembles A1, = {la(x, 0) > rVn/1] 


l 
SUPPe(Ain) < SUP ci 


— 0 
0€ 0€ nf 


! 


lorsque 7 — ©. En utilisant le fait que {|£14l > 7} C UAin, on trouve 
is) 


: 
nEe(lE.al; Ext > 7) < >, Ee.(aHx1, 0n); Ak.n). (7) 


ik] 


Ici Ee.(afx:, On); An) — 0 en vertu de la convergence uniforme de l'intégrale o4(8). Si 
i # K, en posant Bin = {la{x:1, 0x)] > N], on obtient 


Ev,(a'; Axn) = Eo(a; AraBin) + Es (a; Ar.nBin). 
Pour € > 0 donné, on peut choisir N de telle sorte que le premier terme soit strictement 


inférieur à £ en vertu de (4). Le deuxième terme est au plus égal à N2P, (444) — 0 lorsque 
n — ©. Ce qui exprime que (7) tend vers 0 lorsque nr — oo. <Æ 


ANNEXE VI 


QUELQUES PROPOSITIONS RELATIVES AUX INTÉGRALES 
DÉPENDANT D'UN P 


1. Théorèmes de convergence d'intégrales dépendant d’un paramètre. Soit {Ÿ{f, y)] une 
famille de fonctions mesurables défir1ies sur un espace mesurable (*, S,) muni d’une mesure 
». On s'occupera des conditions pour lesquelles 


[vu nrtdy) —+ [V6 »rçd») lorsque r — 6. (1) 


Soit {A(r) = Ar, 0), 4 € 6} une famille d'ensembles de 8,,. Désignons par 4x) 
l’indicateur de A(:) et par A(r) le complémentaire de A(r). 
La proposition suivante est une généralisation d’un théorème classique de Lebesgue. 


THÉORÈME 1. Supposons qu'une famille { A(t)} est telle que 
1) YG La) — Ÿ@, y) lorsque t — 8 pour [r]-presque toutes les valeurs y telles que 
(0, y) # 0. 
2) suplÿ{£4 yum) & V0), où Ÿ est une fonction intégrable : 
{ 


[Ur (ay) < ©. 
Une condition nécessaire et suffisante pour que (1) ait lieu est que 
[Vte MawO)?(dy) — 0 lorsque 1 — 6. (2) 
DÉMONSTRATION. Le théorème de Lebesgue nous dit que 
[vu PLQO) ra) — (46. pra). 
Comme 
Âv = [ur + jura, 

il vient que (1) équivaut à (2). < 

Si ja })r(dy) existe, on peut en qualité d'ensemble A (r) pour les fonctions Ÿ{f, y) conti- 
nues {»]-presque partout prendre l'ensemble | 

A0) = (y: IVG y) < 216, »)1}, 


comme cela se fait, par exemple, dans la proposition suivante. 


COROLLAIRE 1. Supposons que x{x) est une fonction mesurable bornée de ./" dans R et 
Jfe(x) une fonction continue par rapport à 0 pour [k"]-presque toutes les valeurs de x € 7°”. 


Alors la fonction 
Een) = [ra feu"(dx) 
est continue par rapport à 6. 
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DÉMONSTRATION. Utilisons le théorème 1 pour % = 2°”, y = x, » = y", WI, x) = 
= (x) (x), A(t) = (x: fix) < 2fo(x)). Il est évident que les conditions 1) et 2) sont satisfai- 
tes. Vu que Esx(X) = 1 est continue pour r{x) = 1 on a (cf. (2)) 

| fto"(dx) — 0 
x EAN) 
lorsque ? — 8. D'après le théorème 1 on déduit de là que E,xr(X) est continue pour toute fonc- 
tion bornée x. < 

Si l’on ne s'intéresse qu’à une condition suffisante de convergence de (1) dans le cas où 
At, y) — Ÿ{6, y) p.p. pour f — 8, on peut prendre pour telle la convergence uniforme des inté- 
grales de (1). Cette convergence peut être définie comme l'existence d’une mesure finie À 
telle que l'inégalité À(4) < 6 = ô(€) entraîne sup | |#(4, })lu(dy) < e pour & > 0 donné. 

A” 


S'il existe un majorant intégrable (y) = sup Ÿ{£, y), cette mesure À existe toujours : il suf- 
! 


fit de poser MA) = | VU) Cdp). 


A 


2. Conséquences des conditions (R). On prouvera ici le lemme 2.16.1 et la convergence 
uniforme de l'intégrale /(0) : 


supEe(l/’(x1, 0); [/’(x1, 9) > AN) — 0 (3) 
, 


lorsque N — « (c’est justement cette uniformité qui est sous-entendue dans les $$ 2.24, 2.28 
et 2.29). Dans ce numéro et dans le suivant, on n'envisage que le cas d’un paramètre scalaire, 
celui d’un paramètre vectoriel se traitant de façon analogue. 


THÉORÈME 2 (lemme 2.16.1). Supposons que les conditions (R) sont remplies et que S = 
= S(X) est une statistique quelconque pour laquelle EsS? “ c “ w, 0 € ©. Alors dans l'égalité 


as(8) = Eo(S) = [Sea (dx) 


# 


la dérivation sous le signe d'intégration est licite : 
age) = (S(xfé(ou"(dx) = EeSL'(X, 0), (4) 
et de plus la fonction as(@) est continue. 
DÉMONSTRATION. Remarquons préalablement que pour S(x) = 1 et 7 = 1 on déduit de 
(4) que 
[rtmatdx) = 0. (5) 


Comme L'(X, 8) = ©}l’(x, 8) est une somme de variables aléatoires indépendantes de 


{= ] 
moyenne nulle (cf. (S)), il vient 
VL'(X, 8) = Eo(L'(X, 0) = nEo(l” (x, 0) = n1(6). (6) 
Supposons maintenant que la fonction 
L(8) = EL OX, 0) = 4[ 0 at) 
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est continue par rapport à 9 (nous ne pouvons encore pas utiliser (6)). Appliquons le théorème 
1pourY = 2%,» = p", VW x) = (VfAx)" Ÿ, 8 = 1 — 06, 


A() = A1(6) m fx; sup Vf(x) < 2Vfo(x) , 
wme-v<in 
ne 20" | & 2N/e(x)" 11. 
Les conditions 1) et 2) du théorème sont remplies pour #{x) = 2{8, x) puisque les fonctions 
Ve et Vf+’ sont continues. Donc, la convergence de Z,(r) vers /,(8) lorsque : — 8 entraîne 
(cf. (2)) 
= | VAR Par) +0, 1-0. (8) 
xp (8) 

Comme dans le corollaire 1, on en déduit la continuité de |S(x}/6(x)#"(dx). Pour s’en 


assurer, il faut appliquer le théorème 1 « en sens inverse » pour lès mêmes ensembles A(f) et 
V1, x) = S(x}/"{x). Les conditions 1) et 2) du théorème 1 seront visiblement satisfaites (Ÿ{x) = 


= 2SG 5), |Vou" (dx) < AE, | (V0) Ya" (d *).La relation (2) a lieu en vertu de (8) 


et de l'inégalité, tout juste établie, dans laquelle l’intégration doit être effectuée sur l’ensemble 
des x | A:1(6). 
Prouvons maintenant (4). Remarquons que 


. (si = (sur) L [ua = | fase (Vo + 8 )'duu”. 
0 0 


Appliquons de nouveau le théorème 1 pour % = R x 2°", y = (u, x), » = À X p”° (À est la 
mesure de Lebesgue), #46, y) = S(x}f6 + us(x), Ô — 0, A(6) = A1(6), où 41(6) est défini dans 
(7). La continuité de Vfe(x) et Vfe(x) ‘ entraîne de nouveau les coriditions 1) et 2) du théo- 
rème 1 : 


V6, YMacu(x) — S(x}/e(x) = Ÿ{0, y) pour à — 0, 
suply(é, )La(x)| < 4S(x)e(x)|, 


où en vertu de l'inégalité de Cauchy-Bouniakovski 


32 1/2 
PRIPACA EE 


Pour établir (4) il faut donc vérifier la condition (2). Celle-ci résulte de l'inégalité de 
Cauchy-Bouniakovski et de la relation (8) : 


1 
| SVfo+us (Vfe+us) ‘dup” 
z@A1 (6) 0 


< 


< [EE mu] | [op dus] < 


0 2641 (6) 


< a2[{e + uddu]” —+ 0 
0 


lorsque à — 0. 
36° 
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Nous avons donc prouvé (4) sous la condition que Z,(8) soit continue. Mais /,(8) = /(8) 
pour ñn = 1 et cette condition est remplie en vertu des conditions (R). Donc, la relation (4) 
est vrate pour 7 = 1 et, par suite, (5) l’est aussi. Mais (5) entraine (6) qui exprime que /(6) 
est continue. < 


THÉORÊÈME 3. Si © est compact et la fonction Vfe{x) est continüment dérivable par rap- 
port à 0 pour [4]-presque toutes les valeurs de x, alors une condition nécessaire et suffisante 
pour que I(0) soit continue est que (3) soit réalisée. 


Ce théorème exprime que dans la condition (R) la continuité de /(8) peut être remplacée 
par la condition (3). 
DÉMONSTRATION. Supposons que /(8) est continue et que (3) n'est pas réalisée. Il existe 
alors un y > 0 et des suites { — 9 € MG N, — ©, tels que 
m(s) = Ell'Ga, 015 L'Gu, 0 > N] > y (9) 


pour tous les / de la suite choisie. 
Utilisons le théorème 1 pour = % » = p, W{1, x) = (VfAx) 'Ÿ = Z U' 1) f(x), 


A) = {x: INf:O0 ‘| & 21 oGx) ‘11. La fonction Vfe{x) ” étant continue, les conditions 1) 
et 2) du théorème 1 seront satisfaites et par suite la continuité de /(f) entraïnera 


mt) = | NX Fatdo — 0 
OT) 
lorsque ? — 0. Mais m(f) & mt) + m2(t), où 


mA) = | A Pu BO = x 20 1 > ME 1. 
B(NMA(N 
De la forme de l'ensemble A(f), il résulte que 


m(0 < 4 | No ‘Fa. 
B(r) 

En utilisant encore une fois la convergence (Vf4{x)) *” — (Vfe(x)) ”, Vf{x) — Vfelx) lorsque 
t — 6, on trouve que B(f) converge vers un ensemble x-négligeable. Ceci exprime que H{B(1)) — 
— 0, m2(9) — 0, m(t) — 0 lorsque f — w. Cette contradiction avec (9) prouve (3). 

Supposons maintenant que la relation (3) a lieu. D'après le théorème 1, pour établir la 
continuité de Z(t), il suffit de s'assurer que pour le même ensemble A(r) que plus haut, on a 
mit) — 0 lorsque ! — «©. Mais 


mit) < | Wen + N° | Jin 
U'I>N reAi tt) 


où la première intégrale peut être rendue arbitrairement petite, en vertu de (3), moyennant un 
choix convenable de N. Pour estimer la deuxième intégrale, on remarquera que #(A(4)) — 0 


et que pour C{r) = {x: fx) < 2feo(x)} on a | Jin — 0 lorsque  — 0 (cf. démonstration 
du corollaire 1). Donc bdd 
jm <2 [jt [fs 0 


PT) TT) rdc (0 
lorsque ! — 0.< 
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3. Conséquences des conditions (RR). 
THÉORÈME 4. Si les conditions (RR) sont réalisées, on a frstutdx) = 0. 
Combiné au théorème 2 ce théorème nous assure que les conditions (2.24.4) seront 
satisfaites. 
DÉMONSTRATION. D'après le théorème 2, pour tous les 9 € 6,0on a 
[récoutdx) = 0 


il nous suffit de prouver que pour ? — 8 


J(t) = r - 3 [fe = fie] ” (in 


1 ss ff 1 1] ; 
Remarquons que — Yi — Jo) = vi + % - TE CE 


t—-0 


En se servant de cette égalité, on peut représenter J(f) par la somme des quatre termes J(f) = 
= J1 + J1 + Ja + Ja, où 


Jos (oo = | ei - fou, 
IGN 
p - 
J3 = { ere — Jfo)n, Ja = (gr, 
I>N 
[ = (x) étant le majorant de /” (x f) dans les conditions (RR). D'après le théorème 2, il vient 
pour n = 1, S(x) = /’(x, 8) 


Ja = —— 57 El", 0) — Eol' (ui, 0) — Eoll' (x, 0) = 70). (10) 
Par ailleurs 
ler < (11) 
et par suite en vertu du théorème de Lebesgue 
limJ, = [limefon = 1" fon = ôn — I(6). (12) 
t—0 1-0 


En se servant encore de (11), on trouve en vertu des conditions (RR) 
Ms < ( Vin + | Yon — 0 


IN I>N 
lorsque N — . L'inégalité de Cauchy-Bouniakovski nous donne enfin 
{ ! 
Wal < NÛU: - fou < NT Uidun & NÎVIGD du — 0 (13) 
° û 


lorsque { — 8. En combinant les relations (10) à (13), on trouve que O0 = J(r) — rôu. < 


ANNEXE VII 


INÉGALITÉS POUR LA DISTRIBUTION DU RAPPORT 
DE VRAISEMBLANCE DANS LE CAS MULTIDIMENSIONNEL 


Dans ce numéro on prouvera le théorème suivant (théorème 282 ; les notations sont celles 
des $$ 2.21, 2.23 et 2.28). 


THÉORÊME 1. Supposons remplies les conditions suivantes : 


r(u) 


inf —; > g(0) > 0, (1) 
… u 

Esl' (x, 8) = 0, (2) 

y = SUPEel/' (x, 8)|° < © (3) 
0 


pour un certain s > k. Alors pour tous z n > 1 
P,( sup Z{v/vn) > €) < eye” 2 + 67e 
li>r 


où B > 0 dépend seulement de k et des ; c < © dépend de k, s et de g(8) et peut être choisi 
indépendant de g(0) si g(8) > g > 0 pour tous les 6. 


Nous aurons besoin de quelques propositions auxiliaires. Par c, et c4,, nous désignerons 
des constantes qui dépendront seulement de leurs indices. 


LEMME 1. Soient £x, k = 1,2,..., des variables aléatoires indépendantes et équidistri- 
buées, Et = 0, Elta < y < ©, s > 2. Alors 


De 


&=1! 


# 
E £ cryn2. 


DÉMONSTRATION. Pour alléger les raisonnements on se limitera au cas où s = 2m est un 
entier pair *). Dans ce cas, il suffit d'envisager des variables aléatoires scalaires £+. On a 


E DE = D, Etfr...Eté, (4) 
kel Kio. La 
où la sommation est étendue à tous les entiers £1,..., &, tels que dk = 5, ki # 1 (les k,= 


J 
= 1 sont exclus, car Ef4 = 0). L'inégalité de Hôlder nous donne 


IEtf1 < El" = 77° 


*) La démonstration dans le cas général est accessible par exemple dans [42]. 
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donc 


Il IEE < Il YA = 7. 


Ji 


Reste à estimer >, 1. Désignons par (4,..., {,) les éléments non nuls (4 > 2) de 
ki... a 


P 
l'ensemble (k1,..., &) (24 = s). La somme estimée sera égale à >, A», Ah est le 
js! (1... Ap) 
nombre d'arrangements des éléments /1,...,/, pris ñ à n. Il est évident que 4, < n(n — 1)... 
...(n — p + 1). La plus grande valeur de p est égale à m = s/2 (elle correspond à l'ensemble 
(2,2,...,2)), de sorte que 4, < Am < n°”. Or le nombre des arrangements (/,...,/,)ne 
dépend que de s. Donc la somme estimée est au plus égale à c;n". < 
Posons plu) = Z'’“(u). 


LEMME 2. Si les conditions (2), (3) sont réalisées, on a 
Eolp'(u)l < cyn2. 
DÉMONSTRATION. 


Eolp'(u)l = Eo = L'X, 0 + u)Z'/(u)| = 


= s7"EolL'(X, 0 + u)j'Z(u) = 57"Eo+ulL'(X, 8 + u)}|°. 
Reste à appliquer le lemme 1 aux variables aléatoires £4 = /’(xx, 0 + u). <Æ 


LEMME 3. Si les conditions du théorème 1 sont remplies, on a 
Eolp(u + v) — p(u)l < [ul'cyn**?, 


où c, est le même que dans le lemme 2. 
DÉMONSTRATION. L'inégalité de Hôlder et le lemme 2 nous donnent 


loi 
Eolp(u + v) — p(u)| = Es| [@'tu + tu/|vl), v/luparl = 


1 8 1 
= jut'E,| LAC + hu), v/lul)dh| < pr [ Elo’ tu + hu)l'dh < [ul'cyn“?. < 


Désignons par K,..A un cube de R“ d'arête A et de sommet u = (wi1,..., x) : 

Kana = (VER u<u<wm+Ai=1...,Kk). 
LEMME 4. Si les conditions du théorème 1 sont remplies, on a 

2 
Po SUP Z{v/Vn) > ë) < cyA*(e” ”? + e7‘je “Aa, 
Ka 
où les constantes c < © et B > 0 ne dépendent que de k et 5, 
A = LOT 


Cette estimation sera valable pour tout cube d'arête A contenant le point u. 


568 ANNEXE VII 


DÉMONSTRATION. Représentons le point v € K,., sous la forme v = u + fA, où f € Ko. 
Utilisons le développement binaire des coordonnées f;, du vecteur ! : 


> Oir 

h = 7? 

2 
pal 

où les 64 sont égaux à 0 ou à 1. Posons 


= EA = (m...,1k) = 0, (5) 


de sorte que f" est une approximation binaire de # : |t — 1" < 27 "VK. 


Désignons w{(f) = p () = D (2) . Alors 


et) = 60) + 2} (60) — pt"). 
mel 
On dira que des points fi, et ff, sont voisins si leurs représentations (5) ne diffèrent que 
par un seul nombre ô, . .., 6m. Il est clair que si pour deux points voisins quelconques on a 


let) — pt) < Cm/VK, (6) 


alors [p(r”) — p(r" 71) < cu. Donc, si (6) a lieu pour tous les points voisins quels que soient 
m et Cm = A1 — g)g”, q < 1, et si de plus 
(0) < a(l — q), (7) 


alors 


ele) < Daûi — gg" = a, 


m0 

(8) 
sup @{f) < a. 
t6Ko,: 


Considérons maintenant la proposition du lemme. Il nous faut estimer 
Pe( sup Z{v/Vn n) > €)=P: (sup el) > a) (9) 
vEXs, à Ko: 
pour a = e“”. L'inégalité se trouvant sous le signe de la probabilité met en défaut la relation 
(8) et partant l’une des inégalités (6), (7). La probabilité (9) est donc estimée par la somme des 
probabilités 


Poly(0) > all — q)) + , > Pe CT - AB) > TT eme). (0) 


où la dernière somme est formée par k(2”})* termes associés à tous les couples possibles de 
points voisins #1) et r@. Comme {ff — ft] = 27", pour chacun de ces couples, le lemme 
3 et l'inégalité de Tthébychev nous donnent 


Ps (it — (@)| > AR) < &) cn (ee ) 
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Donc, la double somme de (10) sera majorée par 


A'cylaG — g}]7'k17 22 52-60, (11) 
me) 
k- se 


Choisissons g = 22° ne série de (11) sera alors convergente et l'expression (11) sera de la 


forme c2,yA’a”*. En vertu du théorème 2.28.1 et de l'inégalité de Tchébychev, on a pour le 
premier terme de (10) 


Po(p(0) > af — q)) = Po(Z'/(u/ Vn) > (a — q)}?) < (ali — q)) “*e = Ju 500072. 


En posant A = e”"!#%%/0t) en tenant compte de ce que a7* = e”et en admettant sans per- 
dre en généralité que s < 2£, on trouve que (9) est majorée par 
Cesyate” MOUSE + e” 72). 


— k 
dt —% 

La véracité de la deuxième proposition du lemme est évidente, puisque dans la démonstra- 
tion on aurait pu remplacer #(0) par la valeur de la fonction &(f0) en un point fixe quelconque 
to € Ko.1 (la première somme de (10) correspond à la valeur prise en un point, la deuxième, 
à la variation totale éventuelle de æ({f) dans Ko:1). 

DÉMONSTRATION du théorème 1. Recouvrons l'espace R“ 1out entier par un système de 
cubes K,.. dont les coordonnées des points # sont des multiples de A. Les cubes coupant S,= 
= {ue R*:r < [ul < r + 1} sont en nombre inférieur à cxr* "A. Donc 

Pe(supZ(v/vn) >) < ant loye"”? + e-tje- "00, 


vs, 


. On obtient la première proposition du lemme. 


Pe( sup Z{v/vn) > €) < acsye” ©? + e7°) Se + je = (+ DB) 
LET J=-0 


Comme sup{r + j*T le BEN NÉ et 2e” AMG V2 Se É0VS sont majorées par 


J 
une ne c(Bg(@)) ne dépendant de de Bg(8), l'expression obtenue est au plus égale à 


Crsve(Bg(O)de Ve V2 + et), où cBg(6)) < CB) < © si g(8) > g > 0 pour tous 
les 0. < 
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DÉMONSTRATION DE DEUX THÉORÈMES FONDAMENTAUX 
DE LA THÉORIE DES JEUX STATISTIQUES 


On admettra que sont remplies les conditions suivantes. 


ConDITION (A). L'ensemble D des décisions et l'ensemble © des paramètres (des straté- 
gies pures de la nature) sont des espaces métriques compacts munis des métriques respectives 
ep ef Qe. 

Conorrion (B). La fonction de perte w(ô, 8) : D x @ — R est continue par rapport à 
ô et 0 pour les métriques op et çe respectivement. 


Nous nous passerons de la condition w(6ô, 8) > 0. 
Nous disposons d’un échantillon X € Pe dont la taille peut être supposée égale à 1 sans 
perte en généralité. 


Conprrion (C). Les distributions P, sont continues en variation par rapport à 6, c'est-à- 
dire que 


sup |[Pe.(8) — Pe(B)| — 0, 
8€. y 
Si Q0(0m, 9) —+ 0 lorsque m — ©. 


Si la condition (4,) est remplie, c’est-a-dire si P, admet une densité f(x) par rapport à 
une mesure o-finie # sur (2, B>-) : 
dPe 


Jo(x) = d (x), 


alors la condition (C) équivaudra à la continuité de fe(x) dans L1(2, .. n) : 
[V0 — JoCIp(dx) — 0, 


Si C06(0m, 0) — 0 lorsque m — oc. 

Les conditions (A), (B) et (C) sont de toute évidence valables pour des ensembles D et @ 
finis. 

Si D est composé d’un nombre fini de points 61, ..., 6,, la condition (A) relative à D sera 
remplie (le choix de op ne joue aucun rôle), quant à la condition (B), elle exprimera la conti- 
nuité par rapport à çe des fonctions w{61, 8), . .., w(ô,, 8). 

Si les ensembles D et © sont tous deux finis, les conditions (A), (B) et (C) sont automati- 
quement satisfaites. 

Désignons par op et 0e les tribus respectives des boréliens de D et de 6. Suivant le $ 2.3, 
on désignera par (2, Ô, W) le jeu statistique moyennisé, dont les éléments de sont des distri- 
butions Q sur (@, 0e) et les éléments de Z des distributions x{x) = (x, -) sur (D, op) (pour 
tout x € 2”), où r(x, À) est une fonction mesurable par rapport à x quel que soit À € op. 
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La fonction de risque W(r, Q) est définie par 


Wix, © = | | [wtu, Datx duAx)ndx)Q(dr). 
670D 


Si l'on remplace l'argument Q par 6, la fonction W{(r, 8) deviendra W{(r, le), où Ie est une 
distribution concentrée au point 6. Cette convention sera également valable si l’on remplace 
x € ? par 6 € Z. Il nous sera également commode de substituer W à W. Aucune confusion 
ne sera à craindre. 


LEMME 1. Si les conditions (A), (B) et (C) sont satisfaites, la fonction W{x, 8) est conti- 
nue par rapport à 0 pour toute stratégie x{x). 
DÉMONSTRATION. Lorsque 8, — 8 on a 
IWx, 0x) — W(x, 0)] < IEElw(r(X), 0) — w(r(X), 0.) X1]| + 
+ |EcElw(r(2), 0,141 — Es.Elw(x(X, 0:)X1] < 
< | hwGrG), 9 — wtr(o), 0,)IPe(dx) + suplw(, 6) [IPe.(dx) - Petdx). (1) 


La première intégrale converge ici vers 0 en vertu de la continuité de la fonction w par 
rapport à 9. La convergence vers 0 de la deuxième intégrale résulte de la condition (C). En effet, 
supposons que /e,(x) est la densité de P,, par rapport à la mesure 


= Pr + D,27/Pe, 
Joi 
et que B, = (x: fo.(x) > fe(x)]. La deuxième intégrale de (1) est alors égale à 


[Ue,0) — fotolntde) = 2 | (0,0 - fettdx) = APAUB,) — P(B.) + 0. < 


THÉORÈME 1 (premier théorème fondamental). Si {es conditions (A) (B) et (C) sont rem- 
plies, le jeu (2, 8, W) admet une valeur et des stratégies minimax pour les deux joueurs. En 
d'autres termes, il existe une distribution la plus défavorable Q et une décision minimax (x) : 


W. = sup.infW(x, Q) = W{(r, Q) = inf.supW{r, Q) = W*. (2) 
Q T T Q 


En vertu du lemme 2.1 la proposition (2) équivaut à : 
Wéx, 1) = supW(r, Q) = Wx, Q) = infWx, Q) = WU, Q). (3) 
Q 


THÉORÈME 2 (deuxième théorème fondamental). Si les conditions (A), (B) et (C) sont 
remplies, les décisions bayésiennes xa(x) forment une classe complète. En d'autres termes, 
pour tout 0 € © il existe un Q € Ô et un xQ € ? tels que 


1) W(ro, Q) = W(1, Q), 
2) W(ro, 0) < W(ro, 0), ve. 
DÉMONSTRATION du théorème 2. Le deuxième théorème fondamental découle du premier. 


Considérons une stratégie quelconque ro € ? et le jeu (Z, , Wo), où Ho est construite à l’aide 
de la fonction wo(ô, 8) = w(6, 8) —- W(zxo, 9), de sorte que 


Wo(x, 0) = W{x, 0) —- W(xo, 0). (4) 
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La fonction v(8) = W{(zxo, 8) est continue par rapport à 8 en vertu du lemme 1, donc, la fonc- 
tion de perte wo(ô, 9) = w(ô, 8) — u(8) et w(6, 9) satisfont la condition (B). Ceci exprime que 
le jeu (?, Ô, Wo) est justiciable du théorème 1. Comme Wo(ro, ?) = 0 (cf. (4)), la valeur supé- 
rieure de ce jeu vérifie l'inégalité W£# < 0. De (2) et (3), il s'ensuit alors qu’il existe des rx et 
Q tels que 


supWo(x, P) = supWo(x, 8) <0,r = r&œ 
P ° 


Ces deux relations sont équivalentes aux propositions 2)-et 1) du théorème 2 si l’on pose Q = 
= Qcatr= ro. < 
Le théorème 1 résulte des deux lemmes suivants. 


LEMME 2. Si les conditions (A), (B) et (C) sont réalisées, il existe une distribution Q telle 
que W{(I!, Q) > infW{x, 1) = W°. 


LEMME 3. Si les conditions (A), (B) er (C) sont satisfaites, il existe une stratégie x telle 
que W(x,1) < W° 


Les inégalités des lemmes 2 et 3 etraînent la relation 
We > Wix,?1) > W(x, Q) > W(L Q) > W°, 


qui est équivalente à (3) et par suite à (2). Ce qui prouve le théorème 1. <Æ 

Les lemmes 2 et 3-divisent la démonstration du théorème 1 en deux parties. La première 
(lemme 2) est très peu liée au fait que le jeu est statistique. Cette partie de la démonstration 
se déroule à peu de choses près comme pour les jeux ordinaires (comparer avec [25]). 

DÉMONSTRATION du lemme 2. Soit V l'ensemble des fonctions © — R de la forme (8) = 
= W(x, 8), x € 2. Le lemme 1 nous dit que toutes les fonctions de V sont continues, de sorte 
que V C C{(6), où C(6) est l'ensemble de toutes les fonctions continues sur 6. Soient par ail- 
leurs v1(9) = W(x1, 0), u2(0) = W(r2, 0). Comme 


v(8) = pui(8) + (1 — p}u2(68) = Wpm + (1 — p}m, 0), 
Tr = pri + (1 — p}n € 3, 


pour p € [0, 1], il s'ensuit que v € V'et par suite l'ensemble V est convexe. 


Remarquons maintenant que W* = infW{x, î) = inf.supu(9). Pour des raisons de com- 
Li ver 0 


w(ô, 9) — vo + 1 
W® — vo + 1 
initiale w(ô, 8). En désignant la nouvelle fonction encore par w{(6, 8) (le problème reste le 

même) on obtient 


modité on envisagera la fonction , Vo = ns, infu(8), au lieu de la fonction 
er © 


W® = 1, w > 0. (5) 
Soit maintenant U l'ensemble des fonctions continues u(8) : 6 — R telles que supu(8) < 
e 


< 1. Il est évident que U est un ensemble convexe ouvert de C(6). D'autre part, la relation 
S) entraîne la vacuité de l'intersection F N U. Donc, en vertu du théorème de Hahn-Banach 
cf. par exemple {[25]) il existe une fonctionnelle linéaire L(v) : C(6) — R telle que 


L({v) < 1 siveU, L(v) 31 sive y. (6) 


Cette fonctionnelle possède nécessairement la propriété suivante : L(v) > 0 si u(li) = 
s infu(8) > 0. En effet, si l'on admet qu'il existe un élément wo € C(O), voi 4) > 0, pour lequel 
C) 
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L(vo) < 0, on trouve que v, = —sw € U pour tout s > 0, L(v,) = — sL(w) > 1 pour s 
assez grand. Ce qui contredit (6). 

Mais le théorème de Riesz ({36]) nous dit que la fonctionnelle positive L se représente par 
l'intégrale 

Lt) = (v()XGE, 
6 
où X est une mesure finie. Vu que 1 > supL(v) = AO), en admettant que Q(4) = XA4)/NO), 
EU 


on trouve pour v € V que : 
Lt) = [Wix, 9Xd6) = MO)W(x, Q). 


W(4, Q) = —— infL(v) > 1 = W°. < 
DÉMONSTRATION du lemme 3. La fonction W(x, 8) étant continue par rapport à 9 pour 
“pre re 2 Au lemme 1), il nous suffit de construire une stratégie r telle que pour tous les 
= 1,2. 


Wix, de) < W°, (r) 


où 64 sont des points d’un ensemble T = {6:, 6, ...)] dénombrable partout dense dans D. 
Par définition de la valeur supérieure W° d’un jeu il existe une suite de stratégies x, = 
= TA{x, :) telle que 


Wiza, 0) < W° + 1/n (8) 


pour tous les &. 
Construisons maintenant à l’aide des distributions x, une suite d'éléments aléatoires ?, 
spécialement choisis et extrayons d'elle une sous-suite convergente. A cet effet, désignons par 


fo.(x) la densité de la distribution Pe, par rapport à la mesure de probabilité à = >,27“Pe., 
J=1 
si bien que 


Wire, 8x) = Ï | w(u, 0e)ra(x, du)fo,(x)n(dx). (9) 


Considérons l'espace DXR7, où R7 est l'espace des valeurs des éléments flx) = {/e,.(x), 
fo.(x), ...} muni de la tribu 87 engendrée par les ensembles cylindriques. Associons à cha- 
que stratégie x un espace probabilisé (D X Z, op X 8. P), où la distribution P est définie 
par 


P(G € À, X € B) = [dx)nix, 4), (4 € op, A € 8, (10) 


B 
Définissons sur cet espace les éléments aléatoires $ = £(6: X) = (6 fe, (X), fe,(X), . . .) = 
= (6, /() et désignons par f. les éléments associés à +,, si bien que {, sont des variables 
aléatoires sur l'espace probabilisé (D x R7, op x 87, IL) et la distribution IL, est engendrée 
par +4, la formule (10) et l'application #(ô, x) : D x + D x RT. 

Désignons par IIS” les restrictions de la distribution IL, à D x R# (ceci est la distribution 
conjointe de (6, fe,(X), . . . fe,(X)) et par À la distribution de /{X) sur (2; D; #). Nous 
aurons besoin du 


LEMME 4. Il existe une distribution XI sur l'espace mesurable (D x R?, op X B’)et une 
sous-suite [zx] C {x.) telles que 


1® » (11) 
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pour tout k (HI sont les restrictions de I), 
(D x C) = MC), CE 7. (12) 


Ce lemme sera prouvé plus bas. _ 

Désignons par ÿ = (6, f) l'élément aléatoire de distribution I. La relation (12) exprime 
que la distribution de f est confondue avec X (lorsque n varie la deuxième « coordonnée » de 
A ne modifie pas la distribution). L'espace D étanj métrique et compact, donc séparable, il 
existe (cf. [34]) une distribution conditionnelle (régulière) de & par rapport à /(4) que nous 
désignerons par II(-W{x)). _ _ 

Considérons la stratégie r{(x, 4) = I1(8 € A|/{X)) et montrons qu'elle est justiciable de (7). 

Remarquons préalablement que 


Ew(6, de)fe, = Efe,Elw(6, 6:)1X) = [routx) [wtu, Ox}x(u, dx)u(dx) = W{x, 8e). (13) 


Le lemme 4 nous apprend que la distribution de (ô., fe,(4)) converge faiblement vers celle 
de (6, fex(X)). Puisque la fonction w est continue, la distribution conjointe de (w(ôxe, 8x), 
Je,(X)) converge faiblement vers celle de (w(ô, 8:), fe,(X)). Mais la fonction g(u, v) = 
= w(u, 0k)v est continue par rapport à u et vu et est majorée par une fonction g(v) = cv, 
C = maxw(u, 6) telle que Eg(fe,(X)) = cf atdx) = c. Donc, d'après le théorème de 
continuité des moments (cf. théorème 1.5.4) 

lim Eg(ôre, fe, (0) = Eg(, Je, (2), 


n° 
ou ce qui est équivalent lim Ew(ô, 4:)/e,(X) = Ew(6, 8k)fe,(X). 
CCE 
En vertu de (9) et (13) ceci nous conduit à la convergence 

lim War, 6) = W(r, 6e). 

n° ; 
Ce qui prouve le lemme 3, puisque le premier membre de cette égalité (cf. (8)) est au plus égal 
à W. 

DÉMONSTRATION du lemme 4. Figeons un # > 1 quelconque et traitons D X R° comme 
un espace séparable métrique complet pour la métrique engendrée par la métrique euclidienne 
de R* et la métrique çp. Pour tout € > O0 il existe dans R* un compact X, tel que 
P(Ye,X), .…. , fos(A)) € K,) > 1 — €. Puisque D x K, est un compact dans D x R“ et que 


P(ôn € D, Ve,(2), es » Je (X)) € K,) > 1 — €» 


la suite de distributions 1% est dense (cf. [5]). Donc, d’après le théorème de Prokhorov [5] 
il existe une distribution II? et une sous-suite n% = (nf*, nf, . . .) telles que 4, = M). 
Mais les distributions IK® sont visiblement compatibles et par suite le théorème de Kolmogo- 
rov affirme qu’il existe sur (D x R7, ob X 87) une distribution IE dont I? sont les restric- 
tions à (D X R*, op X B*). 

Par ailleurs, on peut admettre que n% * ! C n%). En posant n° = (nf), n£°?, n3°),...), 
on obtient une suite pour laquelle H% = II pour tous les k. 

Prouvons maintenant la relation (12). Supposons que C € 87 est un ensemble cylindrique 
de frontière Il-négligeable. Désignons par C% = CN R* € B! l'ensemble de R* formé par 
les k premières coordonnées des points de C et posons C% = C® x R77* € 37. Alors 


CV) = (D x C®) — H(D x C®). Comme CE +0 € CM, C = (NC, il vient 


K=] 


MC) = limM(C®) = limH®(D x C®) = limI(D x CW) = H(D x OC). < 


ko &- &—e 


Table L Distribution normale réduite # : 


Valeurs de &(x) = $o1(x, ©D = — [ea 


LS 
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TABLE II 


Table 1 (suite) 


Table II. Quantiles de la distribution normale 


__ Valeurs de À. telles que 
®(X) _ Po.10X, of) = €. tt 


0,6745 
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Table III. Distribution H,4 du x? 
Valeurs de (cf. $ 2.2) © 


_ = Le /2-1 ,-1/2 


pour 1 < & < 20. Pour les grands £ on peut se servir de l'approximation (cf. $ 2.2, table 1) 
Ha(x) = &(V2x - V2k = 1) = Hix). (1) 
La dernière colonne est composée des valeurs de A4(x) pour & = 20. Une comparaison 


avec la colonne précédente permet d'apprécier le degré de précision de l'approximation (1). 
L'erreur diminue lorsque £ augmente. 


0,1 0,9998 
0,2 ,9991 
0,4 ,9953 
0,6 ,9880 
0,8 9770 
1,0 ,9626 
1,5 ,9131 
2 ,8492 
3 ,7000 
4 ,5494 
5 ,4159 
6 3062 
7 ,2206 
8 1562 
9 1091 
10 ,0752 
11 ,0514 
12 ,0348 
13 ,0234 
14 ,0156 
15 ,0104 
16 ,0068 
17 ,0045 
18 ,0030 
19 ,0019 
20 ,0013 
21 ,0008 
2 ,0005 
23 ,0003 
24 ,0002 
25 ,000! 
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Table III (suite) 
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Table III (suite) 
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Tabie III (suite) 
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Table IV. Distribution T: de Student 


Valeurs de 


a + r2/k) +2 


z 


FU + 1)/2) 


Do LE Vkz T(k/2) 
T 


pour 1 < &# < 20. Pour les & plus grands on peut se servir de l’approximation (cf. table I, $ 2.2) 
Ta(x) = (x) = $01Ux, œf) (2) 


La précision de l'approximation (2) pour & = 20 peut être appréciée en comparant la der- 
nière colonne de cette table à la table I. 


Table IV (suite) 


TABLE IV 583 


Table IV (suite) 


Table IV (suite) 


NOTICE BIBLIOGRAPHIQUE 


Les commentaires bibliographiques qui suivent sont une tentative de situer l'émergence 
des idées et résultats fondamentaux développés dans cet ouvrage. Ces commentaires n'ont pas 
l'ambition d'être exhaustifs et renvoient souvent non point aux articles originaux qui sont 
d'accès difficile, mais aux manuels, monographies ou articles récapitulatifs qui sont plus faci- 
les à trouver. Des indications bibliographiques et historiques plus détaillées sont données par 
exemple dans {50] et [91]. 

Certaines notions fondamentales de statistique mathématique sont nées à l’aube du siècle 
passé et sont rattachées aux noms de Laplace et Gauss. A la fin du siècle dernier, K. Pearson 
a inauguré par ses travaux une ère d’intense développement de cette science. Le relais a ensuite 
été assuré par KR. Fisher, J. Neyman, A. Kolmogorov et A. Wald. En Union Soviétique, la sta- 
tistique mathématique doit ses plus grands progrès à A. Kolmogorov et N. Smirnov. 


Chapitre 1 


$$ 2, 3, 4. Le théorème de Glivenko-Cantelli a été établi en 1933 (pour une distribution 
continue, la démonstration revient à Glivenko, pour le cas général, à Cantelli). 
La démonstration du théorème 1.2.2 est proche de celle de [53] et constitue un cas particu- 
lier d’une approche plus générale basée sur la notion de classe finiment approximable. Cette 
approche est intégralement développée dans l'Annexe I, où est prouvé le théorème 1.4.2. Une 
approche analogue a été envisagée indépendamment dans [21]. La loi du logarithme itéré 
(théorème 1.4.3) est établie dans [45]. 
$ 6. Les théorèmes 1.6.1 et 1.6.2 relatifs à la distribution de 7Ft) figurent dans l'ouvrage 
de Feller [26], t. 2, $ 3 chap. III. Le théorème 1.6.3. de convergence du processus Vn(Fr) — 
— F(t)) vers un pont brownien qui est prouvé dans l’Annexe II a été établi par Donsker dans 
[22]. Une démonstration du théorème 1.6.3 légerement différente de celle de l'Annexe II est 
accessible dans l'ouvrage de Billingsley [5]. 
$ 7. L'assertion de l'exemple 1.7.3 concernant la distribution limite de la statistique du 
x? (%) a été obtenue pour la première fois par K. Pearson (cf. [19]). 
$ 8. La proposition du corollaire 1.8.2 fait l'objet du théorème de Kolmogorov, et celle du 
corollaire 1.8.3, du théorème ae Smirnov. Ce dernier comprend également la forme explicite 
[ 

de la distribution de [Im ar, forme qui ne scra pas citée ici en raison de sa complexité 
(+) 

(cf. [76]). 

& 10. Les estimations de la densité envisagées dans ce paragraphe ont été introduites par 
Parzen [64] et Rosenblatt [69]. Les résultats acquis dans cette direction et la bibliographie res- 
pective sont accessibles dans le travail récapitulatif de Rosenblatt [70] et dans le & de 
l'ouvrage de Tchentsov [78]. 
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Chapitre 2 


$ 2. D’autres familles paramétriques sont décrites dans l'ouvrage de Wilks [89]. B. Gné- 
denko a réalisé une étude assez complète des distributions des termes d’un échantillon 
ordonné. Les résultats et la bibliographie relative à ce sujet sont accessibles dans l'ouvrage de 
David [20]. 

$ 4. La méthode des moments est historiquement la première méthode régulière de cons- 
truction des estimateurs. Elle a été proposée par K. Pearson en 1894. 

$ 5. La méthode du minimum du x? a été établie par R. Fisher en 1922. 

$ 6. La méthode du maximum de vraisemblance a été utilisée déjà par Gauss dans des 
cas particuliers. Comme méthode générale de construction d’estimateurs elle a été suggérée par 
R. Fisher dans une note en 1912. Plus tard, en 1925, Fisher a étudié dans un travail classique 
[29] les propriétés asymptotiques des estimateurs du maximum de vraisemblance. 

$$ 7, 8. Les méthodes de comparaison des estimateurs proposés sont classiques. La 
démonstration du lemme 2.7.3 a été empruntée à [19]. La notion d’estimateur efficace a été 
introduite par Fisher en 1922 dans [28]. 

$$ 9, 10. La notion fondamentale d'espérance mathématique conditionnelle a été proposée 
par A. Kolmogorov en 1933 dans un travail classique [47]. Les propriétés des distributions con- 
ditionnelles sont étudiées en détail dans [17], [24], [34]. 

$ 11. Le point de vue bayésien était largement utilisé, encore au siècle passé par Laplace. 
Cette approche a été critiquée par Fisher et dans les années 20 à 30 les recherches ont porté 
essentiellement sur les estimateurs efficaces et asymptotiquement efficaces. Cette approche fut 
ensuite remise à l’honneur dès que l'on eut pris conscience de son rôle fondamental. 

La notion d’estimateur minimax a été introduite en statistique mathématique en même 
temps que le point de vue de la théorie des jeux qui a été développé dans les travaux de Borel 
(1921) et von Neumann (1928) ; les théorèmes 2.11.1, 2.11.2 et 2.11.3 on été prouvés par Hodges 
et Lehmann [38]. 

$ 12. La notion fondamentale de statistique exhaustive a été introduite par KR. Fisher [28] 
en 1922. Fisher [28] et plu: tard J. Neyman [58] ont proposé un critère simple permettant de 
déterminer l'existence et la forme d’une statistique exhaustive. Ce critère s'appelle théorème de 
factorisation de Neyman-Fisher (cf. théorème 2.12.1). Ce théorème n’a été prouvé rigoureuse- 
ment par les outils de la théorie des ensembles qu’en 1949 par Halmos et Savage [37]. 

$ 13. La notion de tribu exhaustive est plus large que celle de statistique exhaustive. Les 
conditions nécessaires et suffisantes de leur coïncidence sont exhibées dans [91]. La détermina- 
tion des partitions exhaustives et le théorème 2.13.1 sont liés au travail de Lehmann et Scheffe 
[51] qui est consacré à l’etablissement des conditions d'existence et à La construction des statisti- 
ques exhaustives minimales. Cet article est brièvement exposé dans [91]. La démonstration du 
théorème 2.13.2 appartient à I. Borissov. 

$& 14. Le théorème 2.14.1 a été acquis indépendamment par Blackwell [6] en 1947, Rao [67] 
en 1945, [68] en 1949 et Kolmogorov [46] en 1950. Le théorème 2.14.3 est l’œuvre de Rao [68] 
(1949) et Blackwell [6] (1947). 

$ 15. La famille exponentielle est mentionnée déjà dans les travaux de Fisher [28]. 
L'importance théorique de cette famille a été appréhendée dans les années 30 par Pitman, 
Koopman, Darmois. La famille exponentielle porte parfois les noms de ces derniers. Le théo- 
rème 2.152 a été prouvé par Lehmann [50]. g 

$$ 16, 17. L'inégalité de Rao-Cramer est parfois appelée inégalité d’information. Elle 
appartient en fait à Fisher [29] bien que dans la forme exhibée elle ait été obtenue indépendam- 
ment par Frechet [31] en 1943, Rao [66] en 1945 et Cramer {18] en 1946. 

Les conditions de régularité nécessaires à la réalisation de cette inégalité pèchent parfois 
par leur rigueur dans de nombreux ouvrages de statistique mathématique. Nous avons à l'esprit 
les conditions assurant la légitimité de la dérivation par rapport au paramètre sous le signe 
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d'intégration. La démonstration de cette légitimité contient souvent des lacunes (cf. par exem- 
ple [91]) ou fait tout simplement défaut (par exemple dans [82]). Dans de nombreux cas, elle 
est posée comme condition ([82]) ce qui n'est pas commode dans les problèmes d'application. 

Les conditions de régularité adoptées dans cet ouvrage sont assez simples même si elles 
ne sont visiblement pas les plus générales (comparer avec {43]). La possibilité d’une dérivation, 
dans ces conditions, sous le signe d’intégration est établie dans l'Annexe VI qui s'appuie sur 
les résultats de A. Sakhanenko. 

Diverses généralisations de l'inégalité de Rao-Cramer sont traitées dans [78] et [91]. La 
notion de quantité d’information (de Fisher) a été introduite dans [29]. Les démonstrations des 
théorèmes 2.16.1A et 2.17.1 s’inspirent des ouvrages [42] et [91]. 

$$ 18, 19. L'utilisation de l’invariance est une idée de Hotelling et de Pitman. S. Stein a 
apporté une importante contribution à l'élaboration de la théorie. Le contenu essentiel du 
théorème 2.18.1 est dû à Pitman. Pour le prouver, nous nous sommes appuyés sur [42], [91]. 
La minimaximalité de l’estimateur de Pitman a été établie par Girshik et Savage. 

$ 20. Les résultats de ce paragraphe ont été acquis par l’auteur en collaboration avec 
A. Sakhanenko [13]. Certaines inégalités peuvent être déduites sous des conditions plus restric- 
tives à partir des travaux [32], [77]. 

$ 21. La distance de Kullback-Leibler dans le cas paramétrique est appelée parfois fonc- 
tion d’information de Kullback-Leibler. 1. Sanov a abouti indépendamment à cette distance en 
décrivant les probabilités des grands écarts d’une distribution empirique. L'idée d'utiliser large- 
ment la distance de Hellinger pour étudier les propriétés du rapport de vraisemblance a été 
empruntée à Ibraguimov et Khazminski [42]. Cet ouvrage a encore inspiré les démonstrations 
des théorèmes fondamentaux du $ 23. La démonstration du théorème 2.21.3 a été considérable- 
ment simplifiée par A. Sakhanenko. 

& 22. Le théorème 2.22.1 a été démontré par Chapman et Robbins [16] en 1951 et par Kie- 
fer [44] en 1952. 

88 23, 24 et 25. On développe des cours profondément améliorés après la parution de 
l'ouvrage d’Ibraguimov et Khazminski (42]. Les principaux perfectionnements sont liés à l’uti- 
lisation systématique de la distance de Hellinger pour estimer E,Z l/2{u). L'idée de se servir de 


[Eel(Z?*(u))"1du pour estimer supZ(u) (cf. théorème 2.23.1 et 2.23.2) a été avancée par 


A. Sakhanenko. La normalité asymptotique et l'efficacité asymptotique des estimateurs du 
maximum de vraisemblance a été établie par Fisher [29]. Des conditions de normalité asympto- 
tique assez générales des estimateurs du maximum de vraisemblance ont été acquises dans [42]. 

La normalité asymptotique de la densité a posteriori (ou du rapport de vraisemblance) 
a été découverte par S. Berstein en 1927. Le thérème 2.25.4 appartient à Bahadur [1]. On établit 
sans peine que l'estimateur du maximum de vraisemblance est asymptotiquement bayésien et 
asymptotiquement minimax grâce aux résultats du $ 2.20. On a prouvé antérieurement que 
l'estimateur du maximum de vraisemblance est asymptotiquement bayésien sous des condi- 
tions plus restrictives sur la densité de la distribution a priori. 

La démonstration des théorèmes 2.24.1 et 2.24.2 utilise quelques perfectionnements pro- 
posés par A. Sakhanenko. 

$ 26. On développe une variante de la méthode numérique de Newton-Raphson de recher- 
che de l’extremum d’une fonction. Pour un exposé plus détaillé voir [91]. L'exemple 3 a été 
emprunté à l'ouvrage de Rao [68]. 

8 27. L'étude de la convergence de l'estimateur du maximum de vraisemblance a été enta- 
mée dans les années 30 et 40 dans les travaux de Doob [23], Wald [84], Wolfowitz [90], Cramer 
[19]. Les principales conditions de convergence de [84] impliquent (outre les conditions (4,), 
(Ac) et (4o)) que f(x) soit de classe Do et que 


| [In otoatdx) 
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soit intégrable. Dans [42] on établit des conditions de convergence basées sur la convergence 
| sup (Vfi+u(x) — VX) Y'u(dx) —+ 0 lorsque A — 0. 
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Les résultats des théorèmes 27.1 et 27.2 et leurs corollaires sont plus généraux. Les méthodes 
de démonstration sont proches de [84]. La suffisance des conditions (48) et (2.272) a été 
remarquée par A. Sakhanenko. 

$8 28, 29. Voir commentaires des $$ 23 à 27. L'exemple 2.28.1 a été emprunté à l'ouvrage 
de van der Waerden [82]. L'exposé a bénéficié des nombreux perfectionnements proposés par 
A. Sakhanenko (en particulier le théorème 2.29.5). Ces changements ont permis de simplifier 
le contenu des $$ 13, 14 et 15 du chapitre 3. 

$ 30. Pour de plus amples détails sur l'estimation séquentielle voir par exemple [91]. 

$$ 31, 32. Les premiers intervalles de confiance font leur apparition dans les travaux de 
Laplace. Dès 1812 il a montré qu'il était possible d’inverser par rapport à p la proposition con- 
cernant le degré de l'écart entre la fréquence observée et la probabilité binomiale p afin de trou- 
ver un intervalle pour les valeurs possibles de p. Une interprétation correcte des intervalles de 
confiance (ne supposant pas la stochasticité du paramètre) a été donnée en 1927 par Wilson. 

Une méthode générale de détermination des intervalles de confiance exacts pour un para- 
mètre réel a été proposée par Fisher en 1930 dans [30]. En 1937-1938 Neyman a développé la 
théorie générale des intervalles de confiance et établi leurs liens avec la théorie de test des hypo- 
thèses. Un exposé moderne assez complet de cette question est accessible dans l'ouvrage de 
Lehmann (50). Nous nous sommes inspirés de cet exposé dans le $ 3.7. 

Le théorème 2.32.1 et le lemme 2.32.2 sont l'œuvre de Fisher. 


Chapitre 3 


Les premières applications éparses des tests statistiques remontent à Laplace (fin du 
XVIII-ième siècle). L'usage systématique des tests pour éprouver des hypothèses commence 
avec les travaux de K. Pearson qui a proposé le test du x? en 1900. Les notions fondamentales 
de risque de première et de deuxième espèce ont été introduites par Neyman et Pearson [60] 
en 1928. Ces mêmes auteurs ont mis les premiers en évidence le rôle des alternatives pour un 
choix rationnel du test. La théorie du test uniformément le plus puissant est développée dans 
le travail de Neyman et Pearson {61]. 

L'ouvrage de Lehmann [50] expose systématiquement la théorie de test d’hypothèses. 

$$ 1, 2 et 3. Le théorème fondamental de Neyman-Pearson est prouvé dans [61]. Les théo- 
rèmes 3.1.1 et 3.1.2 figurent dans Blackwell et Girshik [7]. Le théorème 3.2.1 est accessible dans 
Lehmann [50]. Le théorème 3.3.1 sur les grands écarts est l'œuvre de Cramer (cf. [11]). L'estima- 
tion de la qualité d’un test qui est liée aux probabilités des grands écarts sert de base à la notion 
d'efficacité au sens de Bahadur. Le bilan des recherches effectuées dans cette direction se trouve 
dans [3]. 

Le rôle d’une statistique efficace a été signalé dès 1925 par Fisher [29]. Le point de vue 
lié à l'étude des hypothèses voisines a été intensément développé dans la suite par Le Cam, 
Roussas, Tchibissov (cf. également les commentaires des $$ 3.14 et 3.15). 

$ 4. La conception générale des tests statistiques est passée dans l'usage [cf. [19], [50]). 
La notion de test uniformément le plus puissant a été introduite par Neyman et Pearson dans 
[61]. L'approche bayésienne a été utilisée encore au XIX-ième siècle par Laplace. 

$$ S à 8. Les principaux résultats de ces paragraphes ont été empruntés à Lehmann [50]. 
L'exposé est fait dans le même esprit que [50] mais sur le point de vue bayésien et non plus 
sur le lemme généralisé de Neyman-Pearson (lemme 3.5.2, cf. aussi [50]). Ceci simplifie 
l'exposé et le rend plus cohérent. 
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Pour les régions de confiance, voir les commentaires des $$ 2.31 et 3.32. 

Sur la possibilité de généralisation des résultats fondamentaux à des processus aléatoires 
voir Grenander [33]. 

$ 9. Le théorème 3.9.1 a été prouvé par Hodges et Lehmann {38]. 

$ 10. Le rôle fondamental du rapport de vraisemblance en statistique mathématique est 
mis en évidence dans les travaux de Neyman et Pearson [60], [61]. Le test du rapport de vrai- 
semblance a fait l’objet de nombreux travaux. Des tentatives pour établir des propriétés d'opti- 
malité asymptotique de ce test ont été effectuées dans les ouvrages [2], [139], [63], [84], [89]. 

$ 11. La principale contribution à la théorie de l'analyse séquentielle est l'œuvre de Wald 
[85]. L'exposé le plus condensé des principaux résultats dont nous sommes inspirés est accessi- 
ble dans [50]. 

$ 12. Au sujet du test de Kolmogorov et du w’?, voir $ 1.8 et les commentaires respectifs. 
Sur certaines modifications du test de Kolmogorov conduisant à la plus grande puissance pos- 
sible, voir [15]. Le test de Moran a été introduit dans [56]. Sa puissance pour des alternatives 
voisines est étudiée dans [79], [87]. 

$ 13. Dans {10] on établit que le test du maximum de vraisemblance est asymptotiquement 
bayésien. Des résultats concernant la distribution limite du rapport de vraisemblance pour 
l'hypothèse de base ont été acquis par Wilks [88] et Wald [83] (voir également Wilks [89)). 
L'idée de remplacer une hypothèse multiple par une hypothèse moyennisée a été utilisée par 
Wald. La forme asymptotique des tests bayésiens figure dans [52]. Cf. également les commen- 
taires des $$ 28 et 29 du chapitre 2. 

8$ 14, 15. Les idées fondamentales liées à la recherche des tests asymptotiquement opti- 
maux d’hypothèses voisines sont exposées dans les travaux de Wald [83], Le Cam, Roussas (cf. 
[71}), Tchibissov [80]. Sur la possibilité de généraliser les résultats fondamentaux au cas d’un 
paramètre infini (de processus aléatoires), cf. [14]. La forme des exposés des $$ 14 et 15 est 
peu liée à celle des ouvrages cités. La réduction du problème initial À à un problème B pour 
le paramètre d'une distribution normale lorsque l'on recherche les tests optimaux pour les prin- 
cipaux types de problèmes envisagés dans le $ 14, est accessible dans Waild [83]. Le théorème 
3.15.4 relatif à la distribution de la statistique 2 In R,(4) pour l’hypothèse FH, figure dans [89]. 
Voir également les commentaires des $$ 28, 29 du chapitre 2. 

88 16, 17. Le test du x? a été proposé par K. Pearson en 1900. Ce test fait l'objet de nom- 
breux travaux (cf. par exemple la monographie spéciale de Lancaster [49]). Les diverses pro- 
priétés d'optimalité sont discutées dans [39], {63], [83], [89], etc Au sujet du comportement 
de la puissance du test du x? lorsque le nombre de groupes augmente, cf. par exemple [12], 
[81]. Les exemples 3.16.1 et 3.17.2 ont été empruntés à Cramer [19], l'exemple 3.17.1, à Rao [68]. 

$ 18. Il est difficile de situer l’origine des recherches entreprises sur la stabilité des déci- 
sions statistiques. Des recherches plus tardives sont basées sur les travaux de Tuckey, Hodges 
et Lehmann. L'ouvrage de Huber [41] donne un aperçu très complet des résultats acquis dans 
cette direction. 

Pour dresser les tables I—IV on s'est inspiré de l'ouvrage de Bolchev et Smirnov [8]. 


Chapitre 4 


$ 1. Le test du x? du problème de l'exemple 4.1.1, le test de Student du problème de l'exem- 
ple 4.1.3. et le test de Fisher des problèmes des exemples 4.1.4 et 4.1.5. son très souvent utilisés. 
Pour les autres propriétés d'optimalité de ces tests, voir Lehmann [50]. L'exemple 4.1.1A a été 
emprunté à {68]. Le problème de Berens-Fisher fait l'objet de nombreux travaux (cf. [50]). 

$ 2. La distribution exacte de la statistique D, a été trouvée par Gnédenko et Koroliouk 
(cf. [26]) ; la distribution limite de la statistique D,., »., par Smirnov. Le théorème 4.2.2 a été 
établie pour la première fois dans [55] par la méthode des moments. Sur les tests du signe et 
de Wilcoxon, voir également [35]. 
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$$ 3, 4. Les problèmes de regression et d'analyse de variance sont développés dans les 
monographies spéciales de Seber [73] et Scheffe [72]. Voir aussi [19], [50], [68]. 
$ 5. Dans [10] on trouve une remarque sur l'optimalité asymptotique du test (4.5.3). 


Chapitre 5 


La théorie des jeux a pris naissance après les travaux de Borel en 1921 et de von Neumann 
en 1928. Le travail qui a introduit la théorie des jeux en statistique mathématique est le travail 
classique de Neyman-Pearson [62] qui développait de nombreuses idées fondamentales de la 
théorie des décisions statistiques. Une contribution importante a été apportée au développe- 
ment de cette théorie par Wald [86]. La théorie mathématique des jeux est assise dans l'ouvrage 
de von Neumann et Morgenstern [57]. 

Un exposé accessible des fondements de la théorie des jeux statistiques figure dans les 
ouvrages de Blackwell et Girshik [7] et Ferguson [27]. 

$ 2. L'ouvrage de Mc Kinsey [54] est une introduction assez complète à la théorie des jeux. 

$$ 3, 4. Pour une description plux complète des fondements de la théorie des jeux statisti- 
ques, voir [7] et [27]. Dans ces deux ouvrages les deux théorèmes fondamentaux de la théorie 
des jeux statistiques ne sont prouvés que dans le cas particulier où les ensembles D et 6 sont 
discrets. Ceci s'explique par la complexité du cas général (cf. [86]). En annexe nous avons 
donné la démonstration la plus facile parmi celles qui sont connuss de ce théorème. Cette 
démonstration a été produite par A. Sakhanenko. 

& S. Voir commentaires du $ 12 chap. 2. Pour plus de détails sur l'absence de biais voir [91]. 

$ 6. On peut trouver des résultats proches des théorèmes de ce paragraphe dans l'ouvrage 
d'Ibraguimov et Khazminski [42]. 

$ 7. Voir commentaires du $ 13 chap. 3. 

$ 8. Voir commentaires des $$ 14, 15 chap. 2. 


Annexe VIII 


La démonstration des deux théorèmes fondamentaux de théorie des jeux statistiques est 
accessible dans [86] et sous des hypothèses plus particulières dans [7], [27]. Dans le présent 
Ouvrage on expose l'approcne proposée par À. Sakhanenko. Les points forts de cette démonstra- 
tion sont les lemmes 2 et 3. Le lemme 2 n’est pas lié au caractère statistique du jeu; il est basé sur 
les théorèmes de Hahn-Banach et de Riesz et se rapproche des raisonnements développés par 


exemple dans [25]. La démonstration du lemme 3 repose sur les théorèmes de Kolmogorov [47] 
et de Prokhorov {$]. 
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LISTE DES PRINCIPALES NOTATIONS 


condition de correspondance biunivoque entre l'ensemble des paramètres et 
la famille des distributions :# = {Pe)jsce (Po, # Poe. Si 0 # 02) 
condition de compacité de l’ensemble 6 des paramètres 

condition que les distributions de la famille > = {P,} sont dominées par 
la mesure x (la densité fe = dPs/du existe) 

biais 

tribu des boréliens de la droite R 

tribu sur l'espace des phases "(des boréliens si Z°= R°) 

distribution polynomiale (y compris la distribution de Bernoulli) 

espace des fonctions continues sur [a b] 

espace des stratégies du premier joueur 

espace des décisions dans un jeu statistique 

espace des fonctions sur [a, b] continues à gauche (au point a à droite) et 
présentant un nombre fini de sauts 

matrice unité 

famille exponentielle de distributions 

espérance mathématique par rapport à la distribution Pe 

espérance mathématique conditionnelle de £ par rapprort à la variable aléa- 
toire n 

espérance mathématique conditionnelle de £ par rapport à la tribu % 
densité de la distribution P, par rapport à la mesure u 


fonction de vraisemblance 


fonction de répartition de la distribution P 

fonction de distribution empirique 

distribution de Fisher 

groupe des transformations de :7” dans lui-même, associé à une famille 
invariante 

quantile d'ordre 1 — € de la distribution du x? 

hypothèse ‘ 
distribution du x? 

distribution concentrée au point x 

quantité d’information de Fisher 

indicateur de l’ensemble A 

classe des estimateurs de biais b = b(6) 

classe des estimateurs sans biais 

classe des estimateurs asymptotiquement sans biais 
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classe des estimateurs asymptotiquement centrés 

classe des estimateurs 0° asymptotiquement normaux pour lesquels 
Eon(0® — 0)? — 92(8), où 0°(8) est la variance de la distribution normale 
limite de Vn(8° — 0) 

classe des tests de dimension « (de niveau 1 - ) 

classe des tests de niveau asymptotique 1 — € 

classe des tests de niveau 1 — € pour l'approche partiellement bayésienne 
classe des tests de niveau asymptotique 1 — « pour l’approche partiellement 
bayésienne 
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distribution de Cauchy 
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distribution lognormale 

taille de l'échantillon 

support de la distribution P de fonction de répartition F 
symbole de la distribution utilisé dans les sens indiqués à la page 
distribution empirique 

distribution dépendant du paramètre 0 

distribution conditionnelle 

famille de distributions 

stratégie randomisée de la «nature» (distribution a priori de 6) 
distribution a posteriori 

distribution la plus défavorable de 8 (stratégie minimax de la nature) 
densité de la distribution a posteriori 

droite réelle 

espace euclidien à #7 dimensions 


conditions de régularité d’une famille paramétrique en vertu desquelles la 
fonction Vfe(x) est continüment dérivable par rapport à 8 et la quantité 
d'information de Fisher est strictement positive et continue 
conditions de régularité d’une famille paramétrique exigeant que les condi- 
tions (40), (Ac) et (R) soient remplies, que la fonction /(x, 8) admette des 
dérivées première et seconde continues, et un majorant /(x) > |/”(x, t)| tel 
que l'intégrale Es/(x1) converge uniformément sur 6 

statistique 

variance empirique 
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u® = Vn(ô® — 8)estimateur normal du maximum de vraisemblance 
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variance par rapport à la distribution Pe 
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pont brownien 

processus empirique 

fonction de perte du premier joueur 


= Eow(ô(X), 8) fonction de risque 
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X = Xn = 
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= (X,... X«) échantillon de taille n 


LXela = Xx partie d’un échantillon infini, composée des nr premiers éléments 

X( i-ième élément de l'échantillon ordonné (série variationnelle) 

x moyenne empirique 

V4 espace des observations (espace des phases de l'échantillon) 
(ZX: 9,; P) espace probabilisé des échantillons associé à une seule observation 
(2,9%; P) espace probabilisé des échantillons associé à un échantillon de taille n 

x = (1, ..., Xn)élément de 7°" 
air) risque de i-ième espèce du test x 
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fonction de puissance du test à 

fonction de puissance du test x 

distribution bêta 

distribution gamma 

stratégie du premier jouer 

décision (test) 

quantile d'ordre p 

quantile empirique d'ordre p 

paramètre, stratégie de la nature 

borne de l'intervalle de confiance pour le paramètre 0 

estimateur du paramètre 8 

estimateur bayésien du paramètre 8 associé à la distribution a priori Q 
estimateur minimax du paramètre 0 

estimateur du maximum de vraisemblance du paramètre 0 
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nature 

ensemble de confiance 

quantile de la distribution normale 

stratégie randomisée du premier joueur 

test randomisé, décision randomisée 

test bayésien associé à la distribution a priori Q, stratégie randomisée 
test bayésien pour l'approche partiellement bayésienne 

test minimax, stratégie minimax 

test du rapport de vraisemblance 

test uniformément le plus puissant 


* distribution de Poisson 


distribution normale 

fonction de répartition de la loi normale réduite 

coïncidence des distributions des échantillons ou des variables aléatoires 
convergence en probabilité 

convergence presque sûre (avec la probabilité 1) 

convergence faible des variables aléatoire: ou des distributions 

relie un échantillon ou une variable aléatc re à une distribution et exprime 
que cet échantillon ou cette variable sont distribués suivant cette loi 
convergence faible. La relation &, & P exprime que la distribution de £, 
converge faiblement vers P lorsque #7 — © 

en tend par valeurs croissantes vers € . 

EA tend par valeurs décroissantes vers € - 
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